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“Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark. ” 
MapReduce 计算 模型 的 使 用 会 越 来 越 少 ， 最 终 将 被 Apache Spark 所 取代 。 
Hadoop 之 父 Doug Cutting 


写作 背景 

Spark 是 一 个 快速 大 规模 数据 处 理 的 通用 引擎 。 它 给 Java、Scala 、Python 和 R 等 语言 提 
供 了 高 级 API， 并 基于 统一 抽象 的 RDD (弹性 分 布 式 数据 集 ) ， 逐 渐 形 成 了 一 套 自 己 的 生态 
系统 。 这 个 生态 系统 主要 包括 负责 SQL 和 结构 化 数据 处 理 的 Spark SQL、 负 责 实 时 流 处 理 的 
Spark Streaming 、 负 责 图 计算 的 Spark GraphX 以 及 机 融 学 习 子 框架 Miib。Spark 在 处 理 各 种 场 
景 时 ， 提 供给 用 户 统一 的 编程 体验 ， 可 极 大 地 提高 编程 效率 。 

Hive 是 运行 在 Hadoop 上 的 SQL on Hadoop 工具 ， 它 的 推出 是 为 了 给 熟悉 RDBMS 但 又 不 
理解 MapReduce 的 技术 人 员 提 供 快 速 上 手 的 工具 ， 但 是 MapReduce 在 计算 过 程 中 消耗 大 量 
LO 资源 ， 降 低 了 运行 效率 。 为 了 提高 SQL on Hadoop 的 效率 ，Shark 出 现 了 ， 它 使 得 SQL 
on Hadoop 的 性 能 比 Hive 有 了 10 ~ 100 倍 的 提高 。 但 Shark 对 于 Hive 的 过 度 依赖 (如 采用 
Hive 的 语法 解析 吉 、 查 询 优 化 需 等 ) ， 制 约 了 Spark 的 发 展 ， 所 以 提出 了 Spark SQL 项 目 ， 
Spark SQL 抛弃 Shark 原 有 的 次 端 ， 又 汲取 了 Shark 的 一 些 优点 ， 如 内 存 列 存储 (In - Memory 
Columnar Storage) 、Hive 的 兼容 性 等 ， 由 于 摆脱 了 对 Hive 的 依赖 性 ，Spark SQL 在 数据 兼容 、 
性 能 优化 、 组 件 扩展 等 方面 的 性 能 都 得 到 了 极 大 的 提升 。 

Spark SQL 是 Spark 生态 环境 中 最 核心 和 最 基础 的 组 件 ， 是 掌握 Spark 的 关键 所 在 。 由 于 
目前 市 场 上 介绍 Spark 技术 的 书籍 比较 少 ， 尤 其 是 单独 讲解 Spark SQL 的 书 更 是 凤毛麟角， 
我 们 特意 编写 了 这 本 理论 和 实战 相 结合 的 Spark SQL 书籍 ， 在 介绍 Spark SQL 核心 技术 的 同 
时 又 配备 了 丰富 的 示例 ， 同 时 还 穿插 了 源 代码 的 分 析 ， 使 读者 能 从 更 深层 次 来 把 握 Spark 
SQL 的 核心 技术 。 

内 容 速 览 

本 书 完全 从 企业 级 开发 的 角度 出 发 ， 结 合 多 个 企业 级 应 用 案例 ， 深 入 剖析 Spark SQL。 

全 书 一 共 分 为 8 章 ， 主 要 内 容 概括 如 下 : 

第 1 章 认识 Spark SQL， 引 领 读 者 了 解 Spark SQL 的 基础 知识 ， 接 下 来 的 第 2 章 至 第 7 
章 ， 结 合 实战 案例 ， 引 导读 者 掌握 Spark SQL 的 核心 知识 ， 这 6 章 内 容 分 别 为 : DataFrame 
原理 与 常用 操作 、Spark SQL 操作 多 种 数据 源 、Parquet 列 式 存储 、Spark SQL 内 置 函数 与 
窗口 函数 、Spark SQL UDF 与 UDAF、Thrift Server; 本 书 的 最 后 部 分 ， 第 8 章 Spark SQL 
综合 应 用 案例 归纳 并 综合 运用 了 全 部 Spark SQL 知识 点 ， 是 深入 理解 Spark SQL 的 经 典 
案例 。 

本 书 可 以 使 读者 对 Spark SQL 有 深入 的 理解 ， 是 Spark 爱好 者 用 来 学 习 Spark SQL 的 理 
想 教程 ， 也 是 Spark 开发 工程 师 在 开发 过 程 中 可 随时 查阅 的 案头 手册 。 
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第 1 章 认识 Spark SQL 


第 1 全 认识 Spark SQL 


| 十 出 Spark SQL 概述 


Spark SQL 是 Spark 的 计算 模块 之 一 ， 它 和 Spark 的 基础 模块 RDD 不 一 样 ， 是 专门 用 于 
处 理 结构 化 数据 的 。Spark SQL 为 Spark 提供 了 更 加 便利 的 处 理 和 计算 结构 化 数据 的 能 
具备 以 下 知识 基础 ， 可 以 让 我 们 更 好 地 了 解 和 使 用 Spark SQL， 包 括 : SQL、Spark SQL Dat- 
aFrame 、Spark SQL Dataset (SparkSQL Dataset 在 Spark 2.0 之 后 才 被 正式 推出 ， 在 Spark 
1.6.3 版 本 的 生产 环境 中 还 没有 大 规模 应 用 ) 。 

Spark SQL 既 可 以 使 用 标准 的 SQL 语法 ， 也 可 以 使 用 HiveQL 来 执行 SQL 的 查询 和 读 写 ， 
Spark SQL 还 可 以 从 已 经 存在 的 Hive 数据 仓库 中 读 取 数据 〈 关 于 这 方面 的 配置 ， 我 们 将 在 
1.3 节 中 介绍 ) 。 当 我 们 在 Spark 程序 中 使 用 Spark SQL 时 ， 其 结果 将 返回 DataFrame。 当然， 
我 们 还 可 以 通过 交互 式 命令 行 或 者 ]DBC/ODBC 来 调用 Spark SQL 的 API。 


| Spark SQL 与 DataFrame 


Spark SQL 是 在 Spark 生态 系统 中 除了 Spark Core 之 外 最 大 上 且 最 受 关注 组 件 ， 如 图 1-1 
所 示 。 


HiveQL UDFs SerDes 
Spark SQL 
Apache Spark 


图 1-1 Spark 组 件 


Spark SQL 具备 以 下 特征 : 

1) 处 理 一 切 存 储 介质 和 各 种 格式 的 数据 ， 同 时 可 以 方便 地 扩展 Spark SQL 的 功能 来 支 
持 更 多 类 型 的 数据 ， 例 如 Kudu 。 

2) Spark SQL 把 数据 仓库 的 计算 能 力 推 向 了 新 的 高 度 ， 不 仅 包 括 高 效 的 计算 速度 
(Spark SQL 比 Shark 快 了 至 少 一 个 数量 级 ， 而 Shark 比 Hive 快 了 至 少 一 个 数量 级 ， 尤 其 是 在 
Tungsten Project 成 熟 以 后 Spark SQL 会 更 加 无 可 匹敌 ) ， 更 为 重要 的 是 Spark SQL 大 大 提升 了 
数据 仓库 的 计算 复杂 度 (Spark SQL 推出 的 DataFrame 可 以 让 数据 仓库 直接 使 用 机 器 学 习 、 
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图 计算 等 复杂 的 算法 库 来 对 数据 仓库 进行 复杂 深度 数据 价值 的 挖掘 ) 。 


3) Spark SQL (DataFrame 、DataSet) 不 仅 是 数据 仓库 的 引擎 ， 而 且 也 是 数据 挖掘 的 引 
， 更 为 重要 的 是 Spark SQL 是 数据 科学 计算 和 分 析 引 擎 

4) Hive + Spark SQL + DataFrame 组 成 了 目前 在 国内 的 大 数据 主流 技术 组 合 : 

e Hive: 负责 低 成 本 的 数据 仓库 存储 。 

e Spark SQL: 负责 高 速 的 计算 。 

e DataFrame : 负责 复杂 的 数据 挖掘 。 


同属 DataFrame 与 RDD 的 差异 ) 
DataFrame 是 一 个 分 布 式 的 面向 列 组 成 的 数据 集 ， 在 概念 上 类 似 于 一 张 关系 型 数据 库 中 


的 表 ， 但 是 在 Spark 计算 引擎 下 ， 有 了 更 高 效 的 优化 。DataFrame 的 组 成 来 源 很 广泛 ， 例 如 : 
结构 化 文件 、Hive 中 的 Table 、 外 部 数据 库 ， 或 者 由 RDD 转换 而 来 。DataFrame 的 API 可 以 
在 Scala、Java、Python、R 中 使 用 (Spark 支持 以 上 4 种 语言 的 开发 ) 。 


在 R 和 Python 中 都 有 DataFrame， 但 Spark SQL 中 的 DataFrame 从 形式 上 看 最 大 的 不 同 


点 在 于 ， 其 天 生 是 分 布 式 的 。 从 学 习 的 角度 讲 ， 我 们 可 以 简单 地 把 Spark SQL 中 的 Dat- 
aFrame 抽象 成 是 一 个 分 布 式 的 表 ， 其 形式 如 表 1-1 所 示 。 


表 1-1 DataFrame 被 抽象 成 分 布 式 的 表 


姓名 年 龄 电话 

String Int Long 

String Int Long 

String Int Long 

String Int Long 

String Int Long 
而 在 RDD 中 ，DataFrame 的 形式 如 表 1-2 所 示 。 


表 1-2 RDD 中 Dataframe 的 表现 形式 


Record 


Record 
Record 
Record 
Record 
Record 


Record 


数据 的 表现 在 RDD 和 DataFrame 之 间 有 两 点 根本 的 差异 : 
1) RDD 是 以 Record 为 单位 的 ，SparkSQL 在 优化 的 时 候 无 法 了 解 Record 内 部 的 细节 ， 
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所 以 也 就 无 法 进行 更 深度 的 优化 ， 这 极 大 地 限制 了 Spark SQL 性 能 的 提升 。 
2) DataFrame 是 以 列 为 单位 的 ， 包 含 每 个 Record 的 元 数据 信息 ， 也 就 是 说 DataFrame 
在 优化 时 基于 列 内 部 的 优化 ， 而 不 是 像 RDD 一 样 ， 只 能 够 基于 行 来 进行 优化 。 
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Spark SQL 的 发 展 历程 


SparkSQL 发 展 历程 图 如 图 1-2 所 示 。 


Shark 


开发 终止 ， 过 
渡 至 Spark SQL 


Spark SQL Hive on Spark 
一 个 全 新 设计 的 基 帮助 现 有 的 Hive 
于 Spark 的 SQL 引擎 户 迁 移 到 Spark 


图 1-2 Spark SQL 发 展 历程 图 


SparkSQL 是 从 Shark 发 展 而 来 的 ，2014 年 7 月 1 日 的 Spark Summit 上 ，Databricks 宣布 
终止 对 Shark 的 开发 ， 转 向 到 Spark SQL 上 。Databricks 表示 ，Spark SQL 将 涵盖 Shark 的 所 
有 特性 ， 用 户 可 以 从 Shark 0. 9 进行 无 颖 的 升级 。 同 时 Databricks 推出 Spark SQL 和 Hiveon 
Spatk。 其 中 Spark SQL 是 为 Spark 设计 的 一 代 新 的 SQL 引擎 ， 作 为 Spark 生态 中 的 一 员 继 续 
发 展 ， 而 不 再 受 限于 Hive， 只 是 兼容 Hive; 而 Hive on Spark 是 将 Spark 作为 一 个 替代 执行 引 
擎 提供 给 Hive 的 ， 从 而 为 已 经 存在 的 Hive 用 户 提供 了 一 个 迁 往 Spark 的 途径 。 

下 面 简单 地 介绍 一 下 Shark 及 Shark 项 目 终止 的 原因 。 

Shark 发 布 时 ，Hive 可 以 说 是 SQL on Hadoop 的 唯一 选择 ， 负 责 将 SQL 编译 成 可 扩展 的 
MapReduce 作业 。 鉴 于 Hive 的 性 能 及 与 Spark 的 兼容 性 ，Shark 项 目 由 此 而 生 。 

Shark 通过 Hive 的 HQL (Hibernate Query Language) 解析 ， 把 HQL 翻译 成 Spark 上 的 
RDD 操作 ， 然 后 通过 Hive 的 元 数据 获取 数据 库 里 的 表 信息 ,实际 HDFS 上 的 数据 和 文件 ， 
会 由 Shark 获取 并 放 到 Spark 上 运算 。 

Shatk 的 最 大 特性 就 是 速度 快 以 及 与 Hive 的 完全 兼容 ， 且 可 以 在 Shell 模式 下 使 用 APIL， 
， HQL 得 到 的 结果 集 继续 在 Scala 环境 下 运算 ， 支 持 自 己 编写 简单 的 机 器 学 习 或 简单 分 析 处 

函数 ， 对 HQL 结果 进一步 分 析 计 算 。 

但 是 Shark 更 多 的 是 对 Hive 的 改造 ， 替 换 了 Hive 的 物理 执行 引擎 ， 因 此 会 有 一 个 很 快 
的 速度 。 然 而 ， 不 容 忽 视 的 是 ，Shark 继承 了 大 量 的 Hive 代码 ， 因 此 给 进一步 对 其 优化 和 维 
护 带 来 了 大 量 的 麻烦 。 随 着 性 能 优化 和 先进 分 析 整 合 的 进一步 加 深 ,基于 MapReduce 设计 
的 部 分 无 疑 成 为 整个 项 目的 瓶 贷 。 因 此 ， 为 了 更 好 地 发 展 ， 给 用 户 提供 一 个 更 好 的 体验 ， 
Databricks 宣布 终止 Shark 项 目 ， 从 而 将 更 多 的 精力 放 到 Spark SQL 上。 
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让 从 零 起 步 掌 握 Hive 


Hive 是 基于 Hadoop 构建 的 一 套数 据 仓库 分 析 系 统 ， 提 供 了 丰富 的 SQL 查询 方式 来 分 析 
存储 在 Hadoop 分 布 式 文件 系统 中 的 数据 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数 据 库 表 ， 
并 提供 完整 的 SQL 查询 功能 ， 可 以 将 SQL 语句 转换 为 MapReduce 任务 进行 运行 ， 通 过 自己 
的 SQL 去 查询 分 析 需 要 的 内 容 ， 这 套 SQL 简称 HiveQL ( Hive SQL) 。 


| Hive 的 本 质 是 什么 


Hive 是 分 布 式 数据 仓库 ， 同 时 又 是 查询 引擎， 所 以 Spark SQL 取代 的 只 是 Hive 查询 引 
擎 ， 在 企业 实际 生产 环境 下 ，Hive + Spark SQL 是 目前 最 为 经 典 的 数据 分 析 组 合 ，Hive 本 喘 
就 是 一 个 简单 单机 版 本 的 软件 ， 主 要 负责 : 

1) 把 HQL 翻译 成 Mapper - Reducer - 
Mapper 的 代码 , 并 且 可 能 产生 很 多 MapReduce 
的 Job。 

2) 把 生产 的 MapReduce 代码 及 资源 打 成 
JAR 包 ,， 并 自动 发 布 到 Hadoop 集群 中 运行 。 

Hive 本 身 的 架构 如 图 1-3 所 示 。 


Hive 架构 主要 有 下 面 4 个 部 分 组 成 . (Compiler, 
1) 驱动 程序 (Driver) : 负责 编译 、 优 0 


化 、 执 行 。 

Hive 的 入 口 是 Driver， 执 行 的 SQL 语句 
首先 提交 到 Driver， 然 后 调用 编译 器 ( Com- 
piler) 解释 驱动 ， 最 终 解释 成 MapReduce 任 
务 执行 ， 最 后 将 结果 返回 。Driver 调用 编译 髓 
处 理 HiveQL (Hive SQL) ， 可 能 是 一 条 DDL、 
DML 或 查询 语句 。 编 译 吉 将 字符 串 转 化 为 策 
略 (Plan) 。 策 略 仅 由 元 数据 操作 和 HDFS 操 
作 组 成 , 元 数据 操作 只 包含 DDL 语句 ， 
HDFS 操作 只 包含 LOAD 语句 。 具 体 流程 为 : 
解析 一 语义 分 析 一 逻辑 策 略 生成 一 优化 一 
执行 。 

2) 3 种 服务 模式 : Hive 驱动 对 外 提供 了 3 种 服务 模式 ， 分 别 是 : 

e CLI: 即 Hive 命令 行 模式 ， 通 过 命令 行 终端 来 直接 操作 Hive。 

e Web GUI: 即 Hive 的 Web 模式 ,通过 浏览 器 来 访问 Hive。 

e Hive 的 远程 服务 模式 : 通过 Thrift Server 的 支持 ， 远 程 Client 程序 可 以 通过 JDBC/OD- 

BC 方式 来 访问 连接 Hive， 这 也 是 程序 员 最 需要 的 方式 。 


Hadoop 


图 1-3 Hive 架构 
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3) Metastore : 元 数据 存储 。 

Hive 将 元 数据 存储 在 RDBMS 中 ， 一 般 常 用 MySQL 和 Derby。 默 认 情 况 下 ，Hive 元 数 
据 保存 在 内 典 的 Derby 数据 库 中 ， 只 能 允许 一 个 会 话 连 接 ， 只 适合 简单 的 测试 。 实 际 生产 环 
境 中 不 适用 ,为 了 支持 多 用 户 会 话 ， 则 需要 一 个 独立 的 元 数据 库 ， 使 用 MySQL 作为 元 数据 人 人) 
库 ，Hive 内 部 对 MySQL 提供 了 很 好 的 支持 。 

4) Hadoop: Hadoop 是 Hive 的 运行 基石 。 

Hive 安装 依赖 Hadoop 的 集群 ，Hive 运行 在 Hadoop 上 ， 用 HDFS 进行 存储 ， 利 用 Ma- 
pReduce 进行 计算 。 


葬 冯 到 Hive 安装 和 配置 | 


要 安装 Hive， 首 先 要 去 Hive 的 官网 (hive. apache. org) 下 载 安 装 包 (本 书 选择 Hive - 
1.2.1 版 本 ) 。 在 这 里 要 说 明 一 下 ， 官 网 上 的 安装 包 不 带 基 于 Web 的 图 形 化 的 查询 工具 ， 如 
果 需 要 的 话 ， 可 以 自行 下 载 源码 包 ， 自 己 编译 打包 ， 生 成 基于 Web 的 图 形 化 查询 工具 ， 然 
后 进行 部 署 。 这 个 时 候 就 可 以 使 用 Web 的 管理 工具 来 查询 数据 仓库 中 的 数据 了 。 

我 们 知道 Hive 是 运行 在 Hadoop 之 上 的 ， 所 以 在 安装 Hive 之 前 ， 我 们 要 先 安 装 好 Ha- 
doop 环境 ，Hadoop 可 以 是 单机 环境 ， 也 可 以 是 伪 分 布 环 境 ， 还 可 以 是 集群 环境 ， 我 们 采用 
的 是 Hadoop -2.6.0 版 的 集群 环境 。 

下 面 介绍 Hive 的 安装 模式 ，Hive 有 3 种 安装 模式 ,分 别 是 朋 入 模式 、 本 地 模式 、 远 程 模式 。 

(1) 移入 模式 安装 

在 这 种 模式 下 ，Hive 的 元 数据 信息 被 存储 在 Hive 自 带 的 数据 库 中 。 Hive 的 般 入 
模式 有 很 大 的 局 限 ， 在 同一 时 间 ，Hive 只 允许 创建 一 个 连接 ， 这 意味 着 ， 这 个 时 候 只 能 有 
一 个 人 可 以 操作 Hive， 这 种 模式 一 般 只 适用 于 做 演示 使 用 。 

(2) 本 地 模式 安装 

实际 上 本 地 模式 和 上 退 人 模式 很 相似 ， 这 个 时 候 Hive 的 元 数据 存储 在 本 地 另外 的 数据 库 
当中 ， 通 常 我 们 使 用 MySQL 作为 Hive 的 元 数据 数据 库 。 在 这 种 模式 下 ， 人 允许 多 个 用 户 同 时 
连接 ， 这 种 模式 一 般 用 在 我 们 的 开发 和 测试 中 。 

(3) 远程 模式 安装 

一 般 生 产 环 境 采 用 的 都 是 远程 模式 ， 在 远程 模式 下 ，Hive 和 元 数据 数据 库 MySQL (一 
般 是 MySQL， 本 书 中 同样 采用 的 是 MySQL， 如 果 不 做 特殊 的 说 明 ， 本 章 所 有 的 元 数据 数据 
库 都 指 的 是 MySQL 数据 库 ) 运行 在 不 同 的 机 器 上 ， 且 操作 系统 也 可 能 不 一 样 。 在 这 种 模式 
下 ， 允许 多 用 户 同 时 连接 。 

面 分 别 介绍 Hive 的 3 种 模式 下 的 安装 步骤 。 

| 

。 操作 系统 : Ubuntul4. 04 LTS。 

e 软件 版 本 : apache - hive -1.2.1-bin. tar gz。 

e Hadoop: hadoop -2. 6.0 集群 模式 。 

1，Hive 的 佬 入 模式 安装 步骤 

1) 解压 安装 包 ， 并 且 将 安装 包 复 制 到 指定 的 目录 ， 假 设 为 : /opt/software。 
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tar — zxvf apache — hive —1. 2. 1—bin. tar. gz — C/opt/ software 


解压 后 进入 到 该 目录 中 ， 可 以 看 到 下 列子 目录 : 


bin examples lib NOTICE RELEASE_NOTES. txt 
conf hcatalog LICENSE README. txt scripts 


简单 介绍 一 下 Hive 的 目录 结构 。 

e bin 目录 : 存放 的 是 一 些 可 执行 文件 ， 比 如 Hive 常用 的 一 些 指令 等 。 

e conf 目录 : 存放 的 是 Hive 的 配置 文件 ， 比 如 Hive 的 元 数据 存储 信息 等 的 配置 ， 都 在 
这 个 文件 目录 中 。 

e examples 目录 : 存放 Hive 官方 提供 的 一 些 案例 程序 。 

e lib 目录 : 存放 Hive 的 一 些 JAR 包 ， 通 过 这 些 JAR 包 ， 我 们 就 可 以 调用 Hive 的 指令 
来 执行 操作 了 。 

2) 将 Hive 安装 目录 下 的 lb 目录 中 的 jline -2. 12. jar 文件 复制 到 Hadoop 安装 目录 下 的 

share/hadoop/yarn/lib 目录 中 ， 否 则 在 启动 Hive 的 时 候 会 报错 。 


cp jline -2. 12. jar /opt/ software/ hadoop —2. 6. 0/share/ hadoop/ yarn/ lib 
3) 到 Hive 安装 目录 下 的 bin 目录 中 ， 执 行 . /hive 命令 启动 Hive， 在 启动 Hive 的 同时 ， 
Hive 会 自动 创建 一 个 Derby 数据 库 作 为 元 数据 存储 介质 ， 至 此 ，Hive 的 垦 入 模式 安装 完成 。 
如 果 见 到 下 面 的 提示 ， 说 明 Hive 已 经 安装 成 功 了 。 


hadoop@ hadoop :/opt/ software/hive/bin $ . /hive 
Logging initialized using configuration in jar:file:/opt/software/hive/lib/hive ~ common —1.2.1.jarl/ 
hive — log4j. properties 


hive > 


接 下 来 可 以 试 试 Hive 是 否 能 够 正常 使 用 。 如 下 所 示 ， 使 用 SHOW DATABASES 查询 数 
据 库 。 


hive > SHOW DATABASES ; 
OK 
Default 
Time taken:1.58 seconds ,Fetched:1 row(s) 
hive > 
现在 也 可 以 输入 其 他 的 命令 ， 就 像 操 作 数据 库 一 样 ， 可 以 创建 表 、 插 和 数据、 删除 数 


据 等 。 

2. Hive 的 本 地 模式 和 远程 模式 安装 

由 于 Hive 的 本 地 模式 和 远程 模式 非常 相似 ， 所 以 这 里 就 介绍 Hive 的 远程 模式 安装 。 远 
程 模式 安装 意味 着 Hive 的 元 数据 存储 在 远程 机 如 上， 远程 机 帮 可 以 是 Linux 系统 ， 也 可 以 
是 Windows 系统 。 这 个 根据 实际 生产 环境 所 决定 。 

在 本 章 中 ， 我 们 使 用 MySQL 作为 Hive 的 元 数据 数据 库 ， 远 程 机 器 操作 系统 是 Ubun- 
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tul4. 04LTS 版 。 关 于 MySQL 的 安装 ， 可 以 参考 本 章 的 第 1.3.2 小 节 。 
下 面 将 分 为 两 个 阶段 进行 安装 工作 。 
第 一 阶段 ， 进行 与 MySQL 相关 的 准备 工作 。 
1) 在 进行 Hive 的 远程 模式 安装 之 前 ， 先 登录 MySQL 查看 已 有 的 数据 库 的 信息 。 > 


hadoop@ hadoop:/opt/software $ mysql -uroot -P 
Enter password : 


Welcome to the MySQL monitor. Commands end with ;or \g. 


mysql > SHOW DATABASES; 


十 
Database | 
十 
information_schema | 
hive | 
mysql | 
performance_schema | 
+ 
4 rows in set (0. 00 sec) 
结果 显示 ， 登 录 MySQL 数据 库 查 询 到 已 有 四 个 数据 库 ， 分 别 为 : information_schema、 


hive 、mysql 、performance_schema。 

2) 创建 元 数据 信息 库 。 

在 上 面 列 表 中 ， 如 果 发 现 名 称 为 Hive 的 数据 库 不 存在 ,那么 可 以 手动 新 建 一 个 名 为 
hive 的 数据 库 ， 用 来 存储 Hive 数据 仓库 中 的 元 数据 信息 ( 当然 也 可 以 不 手动 创建 它 ， 因 为 
Hive 的 相应 配置 可 以 支持 自动 创建 元 数据 信息 库 ) 。 

下 面 先 手工 新 建 一 个 名 称 为 hive 的 数据 库 : 


mysql > CREATE DATABASE hive; 
Query OK ,1 row affected (0. 00 sec) 


这 个 时 候 我 们 已 经 成 功 地 创建 了 数据 库 ， 目 前 里 面 暂时 是 空 的 。 


Imysql > USE hive; 
Database changed 

mysql > SHOW TABLES; 
Empty set (0. 00 sec) 


3) MySQL 驱动 程序 准备 。 

因为 我 们 使 用 MySQL 作为 元 数据 数据 库 ， 所 以 还 需要 把 MySQL 的 驱动 放 到 Hive 安装 目 
录 下 的 lib 子 目 录 中 。MySQL 驱动 程序 可 以 去 官网 上 下 载 ， 我 们 选择 的 是 mysql - connector - 
java -5.1. 39 -bin. jar 这 个 文件 包 。 检 查 该 包 是 否 存在 于 lib 目录 中 : 
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root@ master:/opt/ software/apache — hive -1.2.1-binZlib# 了 my * 
—IW—r——r—— 1 root root 855948 Nov 8 15:23 mysql - connector — java —5.1.39 -bin. jar 


如 上 所 示 ， 查 询 到 mysql - connector -java -5.1.39 -bin. jar 已 位 于 lib 目录 之 下 。 

4) MySQL 的 访问 账号 配置 。 

因为 我 们 是 使 用 root 账号 来 做 演示 的 ， 所 以 需要 让 root 账号 可 以 被 远程 连接 ， 同 时 删除 
所 有 的 匿名 用 户 。 下 面 是 具体 的 操作 步骤 : 


hadoop@ hadoop: ~ $ /usr/bin/mysql_secure_installation 


NOTE :RUNNING ALL PARTS OF THIS SCRIPT IS RECOMMENDED FOR ALL MySQL 
SERVERS IN PRODUCTION USE! PLEASE READ EACH STEP CAREFULLY! 


In order to log into MySQL to secure it,we 1] need the current 
password for the root user. If you ve just installed MySQL,and 
you haven t set the root password yet,the password will be blank, 


so you should just press enter here. 


Enter current password for root (enter for none ) : 


OK ,successfully used password ,moving on... 


Setting the root password ensures that nobody can log into the MySQL 


root user without the properauthorisation. 
You already have a root password set,so you can safely answer n . 


Change the root password? [ Y/n] n 


当 提 示 是 否 修改 root 密码 时 ， 由 于 已 经 设置 好 了 ， 所 以 这 里 选择 n。 接 下 来 会 显示 下 面 
这 个 提示 界面 : 


By default,a MySQL installation has an anonymous user,allowing anyone 
to log into MySQL without having to have a user account created for 
them. This is intended only for testing ,and to make the installation 

go a bit smoother. You should remove them before moving into a 


production environment. 


Remove anonymous users? | Y/n|] y 


询问 是 否 删除 匿名 用 户 ， 这 里 选择 Y 确认 ， 之 后 的 每 一 次 询问 都 选择 Y。 


全 


By default, MySQL comes with a database named' test that anyone can 
access. This is also intended only for testing,and should be removed 
before moving into a production environment. 

Remove test database and access to it? | Y/n] y 


— Dropping test database. . . 
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ERROR 1008 (HY000) at line 1:Can t drop database' test ;database doesn t exist 
. Failed! Not critical ,keep moving... 


— Removing privileges on test database. . . 


. Success! O) 


Reloading the privilege tables will ensure that all changes made so far 


will take effect immediately. 


Reload privilege tables now? [Y]n] y 


. Success! 
Cleaning up. . . 


All done! If you ve completed all of the above steps ,your MySQL 


installation should now be secure. 


Thanks for using MySQL! 
5) 给 root 用 户 授权 ， 使 root 用 户 可 以 被 远程 连接 。 


mysql > CRANT ALL PRIVILEGES ON * .+ TO' rool @ % IDENTIFIED BY root WITH GRANT 
OPTION ; 
Query OK ,0 rows affected (0. 00 sec) 


授权 成 功 后 更 新 权限 。 


mysql > FLUSH PRIVILEGES,; 
Query OK ,0 rows affected (0. 00 sec) 


6) 查看 user 表 中 的 所 有 用 户 信 息 ， 结 果 如 下 所 示 ， 查 询 出 了 root、debian - sys - maint 
用 户 以 及 相应 的 主机 名 、 地 址 。 


Imysql > select user,host from mysql. user; 


十 十 
User | host | 

十 十 
root % | 
root 127.0.0.1 | 
root ::] | 
debian — sys — maint | localhost | 
root localhost | 

十 十 


5 rows in set (0. 00 sec ) 


第 二 阶段 : MySQL 准备 工作 完毕 ， 进 入 Hive 远程 模式 安装 环节 。 
1) 首先 ， 解 压 Hive 的 安装 包 到 指定 目录 下 。 
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tar —zxvf apache -hive -1.2.1-bin.tar gz  —C /opt/software 


这 样 就 将 Hive 的 安装 目录 解压 并 复制 到 了 /opt/software 目录 下 了 了 了。 然后， 进入 Hive 安 
装 目录 下 的 conf 目录 。 

2) 查看 Hive 的 conf 目录 。 

进入 conf 目录 后 ， 我 们 可 以 看 到 6 个 默认 的 配置 信息 文件 ， 是 Hive 配置 文件 的 模板 。 
分 别 为 : 日 志 配 置 文件 ( beeline - log4j. properties. template 、hive - log4j. properties. template 、 
hive - exec -log4j. properties. template ) ，Hive 缺 省 配置 文件 (hive - default. xml. template ) ， 
Hive 环境 配置 文件 (hive -env. sh. template) ， 以 及 项 目 依 赖 项 配置 文件 (ivysettings. xml) 。 


cd /opt/ software/ apache -hive — 1. 2. 1—bin/ conf 
beeline — log4j. properties. template hive — log4]j. properties. template 
hive - default. xml. template ivysettings. xml 


hive — env. sh. template 


3) 配置 hive - site. xml。 
在 Hive 的 conf 目录 下 创建 hive - site. xml (可 以 参考 hive - default. xml. template 文件 创 
建 ， 也 可 以 自己 手动 新 建 一 个 hive - site. xml 文件 ) ， 命 令 如 下 。 


Vi hive — site. xml 


然后 在 该 文件 中 输入 以 下 内 容 : 


<? xml version ="1.0" encoding =" UTF -8" standalone ="no"? > 

<? xml - stylesheet type = " text/xsl" href = "configuration. xsl"? > 

< configuration > 

< property > 

< name > javax. jdo. option. ConnectionURL < /name > < 1 一 指定 mysql 数据 库 地 址 -> 
< value > jdbce: mysql://192. 168. 0. 38 ;3306/hive </value > 

</property > 


< property > 

< name > javax. jdo. option. ConnectionDriverName </name > <! -指定 数据 库 驱 动 咒 名 称 -> 
< value > com. mysql. jdbc. Driver < /value > 

</property > 

< property > 

< name > javax. jdo. option. ConnectionUserName </name > < 1 一 指定 数据 库 用 户 名 -> 
<value > root </value > 

</property > 

< property > 

< name > javax. jdo. option. ConnectionPassword </name > < 1 一 指定 数据 库 用 户 密码 -> 


<value >root </value > 
</property > 
</configuration > 
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这 样 ， 就 完成 了 hive - site. xml 的 配置 。 
4) 验证 Hive 是 否 安装 成 功 。 
进入 Hive 的 bin 目录 ， 启动 Hive， 命 令 如 下 . 


. /hive © 


执行 完 上 面 的 指令 后 ， 如 果 在 SHELL 中 看 到 如 下 提示 ， 那 么 就 表示 已 经 安装 成 功 了 : 


hadoop@ hadoop:/opt/ software/apache -hive ~1.2.1-bin/bin $ .Zhive 


Logging initialized using configuration in jar:file:/opt/software/apache — hive — 1.2.1—bin/lib/hive — 
common — 1.2. 1. jar!/hive — log4j. properties 
hive > 


这 个 时 候 可 以 去 MySQL 中 查看 数据 库 列表 ， 发 现存 在 了 一 个 名 为 hive 的 数据 库 : 


mysql > show databases; 


十 
Database | 

让 
information_schema | 
hive | 
mysql | 
performance_schema | 

十 


4 rows in set (0. 00 sec) 


然后 可 以 查看 该 数据 库 中 有 哪些 表 。 


mysql > use hive 


mysql > show tables ; 


Tables_in_hive | 


BUCKETING_COLS | 
CDS | 
COLUMNS_V2 | 
DATABASE_PARAMS | 
DBS | 
FUNCS | 
FUNC_RU | 
GLOBAL PRIVS | 
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PARTITIONS | 
PARTITION_KEYS 
PARTITION_KEY_VALS 
PARTITION_PARAMS | 
PART COL_ STATS 

ROLES | 
SDS | 
SD_PARAMS | 
SEQUENCE_TABLE 

SERDES | 
SERDE_PARAMS | 
SKEWED_COL_NAMES | 
SKEWED_ COL_ VALUE LOC MAP | 
SKEWED_STRING_LIST | 
SKEWED_STRING_LIST_VALUES 
SKEWED_VALUES | 
SORT_COLS 

TABLE_PARAMS | 
TAB_COL,_STATS | 
TBLS | 
VERSION 


从 上 面 的 信息 中 可 以 看 到 ，Hive 已 经 在 MySQL 中 创建 了 用 来 存储 元 数据 信息 的 相关 表 。 


请 且 明 使 用 Hive 分 析 搜索 数据 ) 


接 下 来 ,我 们 演示 如 何 使 用 Hive 处 理 数据 ， 主 要 步骤 如 下 . 

。 准备 数据 。 

e 了 解 要 处 理 的 数据 。 

e 将 数据 导入 到 Hive 中 。 

。 开始 使 用 Hive 来 分 析 搜索 数据 。 

1. 数据 准备 

在 使 用 Hive 分 析 数 据 之 前 ， 首 先 需 要 准备 数据 ， 本 示例 演示 使 用 的 数据 来 自 搜狗 实验 
室 ， 可 以 自行 去 搜狗 实验 室 官方 网 站 (http://www. sogou. com/labs/) 下 载 : 用 户 查 询 日 志 。 
该 数据 格式 如 图 1-4 所 示 。 

2. 认识 数据 

首先 认识 一 下 要 分 析 的 数据 ， 数 据 一 共有 6 列 ， 分 别 是 : 

。 第 一 列 ， 搜 索 时 间 。 

。 第 二 列 ， 用 户 ID。 


20111230000005 57375476989eea12893c0c3811607bcf 
20111230000005 66cS5bb7774e31d0a22278249b26bc83a 凡人 


20111230000007  b97920521c78de70ac38e3713f524b50 不 不 峡 绍 1 1 


。 第 三 列 ， 用 户 在 搜索 框 中 输入 的 搜索 内 容 。 

。 第 四 列 ， 搜 索 内 容 出 现在 搜索 结果 页 面 中 的 第 几 行 。 

。 第 五 列 ， 表 示 用 户 单 击 的 是 搜索 出 来 的 页 面 上 的 第 几 行 。 

。 第 六 列 ， 表 示 用 户 单 击 的 超 链 接 。 

3. 数据 导入 

准备 好 数据 之 后 ， 需 要 将 数据 导入 到 Hive 数据 仓库 中 。 

首先 启动 Hive， 然 后 在 里 面 创建 一 个 名 为 hive 的 数据 库 ， 使 用 该 数据 库 ， 并 在 这 个 数 
据 库 中 创建 一 个 表 ， 命 名 为 sogouQ1， 具 体操 作 如 下 : 

1) 创建 一 个 名 为 hive 的 数据 库 。 


hive > create database hive; 
OK 
Time taken :0. 395 seconds 


2) 使 用 该 数据 库 。 


hive > use hive; 


OK 
3) 创建 一 张 名 为 SogouQ1 的 表 。 


hive > create tableSogouQ1 (ID string, websesion string, word string,s_seq int,c_seq int, website string) 
row format delimited fields terminated by \{ lines terminated by \n ; 

OK 

Time taken :0. 509 seconds 


4) 将 本 地 数据 导入 到 SogouQ1 表 中 。 


hive > load data local inpath /opt/ data/ SogouQ1. txt into table SogouQ!1; 
Loading data to table hive. sogoudq1 

Table hive. sogouql stats :| numFiles = 1 ,totalSize = 108750574 ] 

OK 

Time taken :2. 602 seconds 


现在 数据 已 经 准备 完毕 ,需要 注意 的 是 ,数据 的 存放 包括 两 种 方式 : 数据 存放 在 本 地 的 
磁盘 文件 中 ; 数据 存放 在 Hadoop 集群 中 的 HDFS 分 布 式 文件 系统 中 。 如 果 数 据 在 HDFS 上 ， 
那么 我 们 在 导入 数据 的 时 候 ， 需 要 去 掉 load 语句 中 的 local 关键 字 。 另 外 ，Hive 的 表 分 为 内 
部 表 和 外 部 表 ， 可 以 简单 地 理解 为 ， 内 部 表 是 数据 存储 在 Hive 数据 仓库 中 的 表 ， 而 外 部 表 
则 是 数据 不 存在 Hive 的 元 数据 中 。 对 于 内 部 表 来 说 ， 在 我 们 删除 表 的 同时 ， 数 据 也 被 删除 
了 ， 而 在 删除 外 部 表 的 时 候 ， 不 会 删除 元 数据 。 
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4. 使 用 Hive 分 析 搜 索 数据 
1) 统计 SogouQ1 表 的 记录 数 。 
该 示例 统计 SogouQ1 表 的 记录 总 数 ， 同 时 也 可 以 了 解 Hive 的 具体 运行 过 程 。 


hive > select count( * ) from SogouQl ; 

Query ID =hadoop_20160516102827_6e05496e - dab9 -4 他 1-93 伍 -2d8e30ad015d 
Total jobs =1 

Launching Job 1 out of 1 


Number of reduce tasks determined at compile time:1 
In order to change the average load for a reducer (in bytes ) : 
set hive. exec. reducers. bytes. per. reducer = < number > 
In order to limit the maximum number of reducers: 
set hive. exec. reducers. max = < number > 
In order to set a constant number of reducers: 
setmapreduce. job. reduces = < number > 
Starting Job = job_1463323240514 _0001, Tracking URL = http://hadoop: 8088/proxy/application _ 
1463323240514_0001/ 
Kill Command = /opt/ software/ hadoop —2. 6. 0/bin/hadoop job  — kill job_1463323240514_0001 
Hadoop job information for Stage —1 :number of mappers :1;number of reducers:1 
2016 -05 -16 10:28:41,347 Stage -1 map =0% ， reduce =0% 
2016 -05 -16 10:28:49 ,197 Stage -1 map =100% ， reduce =0% ,Cumulative CPU 4. 68 sec 
2016 -05 -16 10:28:56,695 Stage -1 map =100% ， reduce =100% ,Cumulative CPU 7. 74 sec 
MapReduce Total cumulative CPU time :7 seconds 740 msec 
Ended Job =job_1463323240514_0001 
MapReduce Jobs Launched : 
Stage - Stage-1:Map:1 Reduce:1 Cumulative CPU:7.74 sec HDFS Read:108757525 HDFS 
Write:8 SUCCESS 
TotalMapReduce CPU Time Spent:7 seconds 740 msec 
OK 
1000000 
Time taken:31. 858 seconds ,Fetched:1 row(s) 


从 上 面 的 运行 结果 中 可 以 看 到 ，SogouQ1 表 的 数据 总 共有 100 万 条 ， 运 行 时间 31. 858 
秒 。 关 于 Hive 的 运行 过 程 ， 这 里 做 一 个 简单 的 说 明 。 首 先 HQL 语句 会 被 Hive 转换 成 map/ 
reduce 程序 ， 然 后 通过 hive 自动 打包 并 发 布 到 集群 中 运行 。 所 以 在 Hive 中 写 HQL 语句 来 进 
行 增删 改 查 操作 时 ， 其 实 最 终 都 是 通过 map/reduce 程序 来 完成 的 。 

2) 按 条 件 统计 SogouQ1 表 中 满足 条 件 的 记录 数 。 

下 面 是 查询 搜索 关键 字 为 baidu 的 记录 总 共有 多 少 条 。 


hive > select count( * ) from SogouQ1l where word like“% baidu% ; 

Query ID =hadoop_ 20160517000240_aff7ba60 - 0d8c -48d3 — ae03 - d14447ccb7b2 
Total jobs =1 

Launching Job 1 out of 1 


Number of reduce tasks determined at compile time:1 


In order to change the average load for a reducer (in bytes ) : 
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set hive. exec. reducers. bytes. per. reducer = < number > 

In order to limit the maximum number of reducers: 
set hive. exec. reducers. max = < number > 

In order to set a constant number of reducers: O) 
setmapreduce. job. reduces = < number > 

Starting Job = job _1463455574333 _0002, Tracking URL = http://master: 8088/proxy/ application _ 

1463455574333_0002/ 
Kill Command = /opt/ software/ hadoop —2. 6. 0/bin/hadoop job  — kill job_1463455574333_0002 


Hadoop job information for Stage -1:number of mappers :1;number of reducers:1 

2016 -05 -17 00:03:05 ,281 Stage -1 map =0% ， reduce =0% 

2016 -05 -17 00:03:16,413 Stage -1 map =100% ， reduce =0% ,Cumulative CPU 6. 03 sec 

2016 -05 -17 00:03:23 ,943 Stage -1 map =100% ， reduce =100% ,Cumulative CPU 7. 97 sec 

MapReduce Total cumulative CPU time:7 seconds 970 msec 

Ended Job = job_1463455574333_0002 

MapReduce Jobs Launched : 

Stage -Stage -1:Map:1 Reduce:1 Cumulative CPU:7.97 sec HDFS Read:108758478 HDFS 
Write:5 SUCCESS 

TotalMapReduce CPU Time Spent:7 seconds 970 msec 

OK 

4470 

Time taken :44. 405 seconds ,Fetched:1 row(s) 


从 统计 结果 可 知 ， 包 含 关 键 字 为 baidu 的 记录 共有 4470 条 ， 查 询 时 间 为 44. 405 秒 。 

3) 对 SogouQ1 表 进 行 更 复杂 的 统计 。 

统计 总 共有 多 少 条 搜索 baidu 且 排 名 和 点 击 率 都 是 第 一 的 记录 数 。s_sed 表示 搜索 内 容 
出 现在 搜索 结果 页 面 中 的 第 几 行 ; ce_seq 表示 用 户 点 击 的 是 搜索 出 来 的 页 面 上 的 第 几 行 ; 
s_seq =1 and c_seq =1 表示 搜索 内 容 出 现在 搜集 结果 页 面 的 排名 是 第 一 行 ， 而 且 用 户 点 击 的 
就 是 搜索 页 面 的 第 一 行 。 

下 面 是 具体 的 HQL 语句 及 执行 结果 


hive > select count( * ) fromSogouQ1 where s_seq =1 and c_seq =1 and word like' baidu 


result:4124 


从 统计 结果 可 知 ， 符 合 查询 项 的 记录 共有 4124 条 。 


Ee Spark SQL on Hive 安装 与 配置 


| 安装 Spark SQL ) 


要 使 用 Spark SQL， 必 须要 安装 Spark。Spark 有 两 种 运行 模式 ， 一 种 是 Spark on Yarn ， 
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另 一 种 是 Standalone 模式 。 本 章 将 带领 大 家 完成 Spark 的 Standalone 模式 的 安装 。 

Spark 目前 的 运行 环境 只 能 是 Linux， 本 书 中 的 运行 环境 如 下 : 

。 Linux 使 用 的 是 Ubuntul14. 04 LTS 。 

® Spark 为 1.6.3 版 本 。 

e Hadoop 是 2. 6.0 版 本 。 

简要 说 一 下 Spark 的 安装 步 又， 首先 需要 一 个 Linux 环境 ， 同 时 已 经 安装 了 Hadoop ， 然 
后 去 Spark 官网 (http://spark. apache. org/) 下 载 Spark 安装 包 ， 将 它 解压 并 进行 配置 。 

注意 ,本章 中 所 有 安装 配置 都 是 最 小 化 运行 配置 。 

1.， Spark 软件 包 解 压 


tar — zxvf spark -1.6.3 -bin -hadoop2.6. gz 


解压 完成 后 查看 Spark 下 的 子 目 录 


hadoop@ hadoop:/opt/software/spark -1.6.3 -bin -hadoop2.6 $ ls 
bin conf ec2 lib licenses pythonREADME. mdsbin 
CHANGES. txt data examples LICENSE NOTICE R RELEASE 


上 面 的 内 容 就 是 Spark 下 的 子 目 录 ， 其 中 bin 和 sbin 目录 中 存放 Spark 的 基本 命令 ， 例 
如 启动 集群 、 启 动 spark - sql 等 ，conf 目录 存放 Spark 的 配置 文件 。 

2. Spark 的 配置 

(1) 配置 spark -env. sh 配置 文件 

进入 Spark 的 配置 目录 : 


cd spark -1.6.3 -bin -hadoop2. 6/conf 
输入 vim 命令 ， 编 辑 spark -env. sh 文件 : 


vim spark — env. sh 


在 spark - env. sh 配置 文件 中 加 入 以 下 配置 项 ,设置 JAVA、SCALA、HADOOP、HA- 
DOOP_CONF 的 环境 变量 : 


export JAVA_HOME = /opt/software/jdk - 1. 8.0_65 

export SCALA_HOME = /opt/software/ scala -2. 11.8 

export HADOO_HOME = /opt/ software/hadoop -2. 6.0 

export HADOOP_CONF_DIR = $ HADOOP_HOME/etc/hadoop 
export SPARK_MASTER_IP = master 

export SPARK_WORKER_MEMORY =2g 

export SPARK_EXCUTOR_MEMORY =2g 

export SPARK_DRIVER_MEMORY =2g 

export SPARK_WORK_CORES =8 


SPARK_MASTER_IP 设置 Master 结 点 地 址 、SPARK_WORKER_MEMORY 设置 Worker 结 
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点 内 存 大 小 、SPARK_EXCUTOR_MEMORY 设置 EXCUTOR 的 内 存 大 小 、SPARK_DRIVER_ 
MEMORY 设置 DRIVER 的 内 存 大 小 、SPARK_WORK_CORES 设置 Worker 的 内 核 数 。 
(2) 配置 系统 环境 变量 
输入 vim 命令 ， 编辑 系统 的 环境 变量 文件 ~/. bashrc: > 


Shell:vim ~/. bashrc 


在 环境 变量 中 加 入 以 下 配置 项 : 


export SPARK_HOME = /opt/software/ spark -1.6.3 -bin -hadoop2.6 
export PATH = $ PATH: $ SPARK_HOME/bin: $ SPARK HOME/sbin 


e 设置 Spark 的 环境 变量 SPARK_HOME。 

e 设置 PATH 环境 变量 ， 将 SPARK 的 bin，sbin 目录 加 入 PATH 中 。 
(3) 环境 变量 生效 

在 命令 行 输入 source ~/. bashre， 使 修改 的 ~/. bashrc 配置 文件 生效 。 


source ~/. bashre 


(4) 配置 spark - default. conf 文件 
输入 mv 命令 ， 将 spark - default. conf template 模板 更 名 为 spark - default. conf 文件 名 。 
输入 vim 命令 ， 编 辑 spark - default. conf 配置 文件 。 


myv spark — default. conf. template spark — default conf 
vim spark — default. conf 


在 spark - default. conf 配置 文件 中 加 入 以 下 配置 项 . 


spark. excutor. extraJavaOptions  — XX.:+PrintGCDetails — Dkey =value - Dnumbers =" one two three" 
spark. eventLog. enabled true 

spark. eventLog. dir hdfs://master:9000/historyserverforSpark 

spark. yarn. historyServer. address master: 18080 

spark. history. fs. logDirectory hdfs://master:9000/historyserverforSpark 


® spark. excutor. extraJavaOptions， 配 置 Excutor 的 JVM 选项 ， 输出 GC 的 详细 日 志 ; 
-了 Dkey = value 方式 指定 系统 属性 : 例如 Dnumbers 的 值 可 以 设置 为 "one two three" 。 

e spark. eventLog. enabled 设置 为 true: 启动 事件 日 志 ， 记 录 Spark 事件 日 志 。 

e spark. event-Log. dirY， 配 置 事件 日 志 的 目录 。 

® spark. yarn. historyServer. address ， 设 置 historyServer 的 地 址 及 端口 。 

e spark. history. fs. logDirectory， 设 置 历史 应 用 程序 的 日 志 目 录 URL。 

(5) 配置 slaves 文件 

在 slaves 配置 文件 中 加 入 worker 结 点 的 hostname 主机 名 : 

e 使 用 Vim 编辑 slaves 配置 文件 。 

e slaves 文件 的 每 一 行 配 置 为 worker 结 点 的 主机 名 ， 每 行 配置 一 个 结 点 。 
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vim slaves 
Workerl 
Worker2 
Worker3 


(6) 启动 Spark 集群 
Spark 已 经 安装 完成 ， 输 入 start - all. sh 命令 启动 Spark 集群 


cd $ SPARK_ HOME/sbin 
./start — all. sh 


(7) Spark 集群 启动 验证 
输入 jps 命令 ，Master 主机 上 会 显示 master 进程 。 


#]ps 

5378 NameNode 

5608 SecondaryNameNode 
7260 Jps 

7181 Master 

5742 ResourceManager 


输入 jps 命令 ， 在 worker 结 点 上 会 显示 worker 进程 。 


机 ps 

4152 Worker 

3994 NodeManager 
4202 Jps 

3262 DataNode 


说 明 已 经 成 功 安装 好 了 Spark。 


尾 志 刘 安装 MySQL ) 


MySQL 是 一 款 开源 的 关系 型 数据 库 管 理 系统 ， 有 很 多 版 本 ，MySQL 的 安装 方式 也 有 很 
多 种 ， 这 里 介绍 的 是 Ubuntu14. 04 LTS 下 MySQL 5. 5 的 安装 步 又。 

Ubuntu 4. 04 默认 情况 下 没有 安装 MySQL， 在 安装 MySQL 之 前 ， 可 以 检查 系统 是 否 已 经 
安装 了 MySQL， 如 未 安装 ， 则 只 要 在 联网 情况 下 使 用 sudo apt - get install mysql - server 命令 
即 可 安装 。 

在 安装 之 前 ， 可 以 先 检查 系统 中 是 否 已 经 安装 了 mysql， 命 令 如 下 : 


netstat 一 tap | grep mysql 


结果 如 图 1-5 所 示 ， 表 明 目 前 系统 中 未 安装 mysql。 
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hadoop@hadoop:~$ netstat -tap | grep mysql 
(Not all processes coulLd be identified, non-owned process info 
will not be shown，you would have to be root to see it all.) 


图 1-5 检查 系统 是 否 安装 了 MySQL 人 


在 Ubuntu 中 安装 MySQL 非常 简单 ， 只 需要 使 用 如 下 几 条 简单 的 指令 即 可 : 
1) 更 新 最 新 的 软件 源 中 的 软件 列表 : 


sudo apt — get update 


2) 更 新 已 安装 软件 到 最 新 版 本 : 


sudo apt — get upgrade 


3) 安装 MySQL， 这 里 默认 安装 MySQL 5. 5: 
sudo apt — get install mysql — server 


具体 的 程序 运行 情况 ， 如 图 1-6 所 示 。 


hadoop@hadoop:~$ sudo apt-get install mysql-server 

Reading package lists... Done 

Building dependency tree 

Reading state information... Done 

The following extra packages will be installed: 
Libaiol libdbd-mysql-perl libdbi-perl libhtml-template-perl LibmysqLcLient18 
libterm-readkey-perl mysql-client-5.5 mysql-client-core-5.5 mysql-common 
mysql-server-5.5 mysql-server-core-5.5 

Suggested packages: 
libmldbm-perl libnet-daemon-perl libplrpc-perl libsql-statement-perl 
libipc-sharedcache-perl tinyca mailx 

The following NEW packages will be installed: 
Libaiol libdbd-mysql-perl libdbi-perl libhtml-template-perl LibmysqLcLient18 
libterm-readkey-perl mysql-client-5.5 mysql-client-core-5.5 mysql-common 
mysql-server mysql-server-5.5 mysql-server-core-5.5 

9 upgraded, 12 newly installed, 0 to remove and 0 not upgraded. 

Need to get 9,995 kB of archives . 

After this operation, 97.1 MB of additional disk space will be used. 

Do you want to continue? [Y/n] | | 


图 1-6 安装 mysql - server 


输入 “Y” 继续 执行 安装 指令 。 

4) 输入 root 用 户 的 登录 密码 。 

在 安装 过 程 中 ，shell 中 会 弹出 如 图 1-7 所 示 的 对 话 框 ， 提 示 输 入 root 用 户 的 登录 密码 。 

再 次 输入 确定 密码 后 ， 就 配置 好 了 root 用 户 的 密码 。 然 后 安装 程序 会 继续 执行 安装 ， 直 
到 安装 完成 。 

5) 测试 MySQL 是 否 安装 成 功 。 

安装 完成 后 可 以 测试 一 下 MySQL 是 否 安装 成 功 ， 命 令 如 下 : 


mysql ~u root ~p <password > 


< password > (按照 提示 输入 你 的 密码 ) 
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PF 


hadoop@hadoop: ~ 
Package configuration 


Configuring mysql-server-5.5 
While not mandatory, it is highly recommended that you set a password 
for the MySQL administrative "root"” user. 


If this field is left blank, the password will not be changed. 


New password for the MySQL "root" yser: 


图 1-7 提示 输入 登录 密码 用 的 对 话 忆 


im 


登录 成 功 会 出 现 如 图 1-8 所 示 的 界面 。 


hadoop@hadoop:~$ mysql -uy root -p 

Enter password: 

Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 42 

Server version: 5.5.49-Qubuntu0.14.04.1 (Ubuntu) 


Copyright (c) 2060, 2016, Oracle and/or its affiliates. ALL rights reserved . 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


OwNers. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


图 1-8 MySQL 登录 成 功 
可 以 测试 一 条 简单 的 SQL 语句 ， 比 如 : 查询 MySQL 默认 有 几 个 数据 库 ， 如 图 1-9 
所 示 : 


mysql> SHOW DATABASES ; 


information_schema 
mysql 
performance_schema 


rows in set (9.91 sec) 


图 1-9 列 出 默认 数据 库 
至 此 ，MySQL 就 安装 结束 了 。 
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1.3.3 启动 Hive Metastore 


使 用 Spark SQL， 并 使 用 Hive 作为 数据 仓库 ， 需 要 在 安装 了 Hive 的 那 台 机 器 上 的 
Spark 的 conf 目录 下 ， 配置 Hive 的 元 数据 信息 。 这 样 即使 不 启动 Hive，Spark 也 能 正常 
工作 。 

首先 ， 进 入 到 Spark 安装 目录 下 的 conf 目录 ， 执行 下 面 的 指令 . 


请 


vim hive — site. xml 
将 如 下 信息 添加 到 hive - site. xml 文件 中 . 


<? xml version ="1.0" encoding ="UTF -8"? > 
< configuration > 

< property > 

< name > hive. metastore. uris </name > 

< value > thrift.//master:9083 < /value > 
</property > 

</configuration > 


e hive. metastore. uris: Hive 连接 到 该 URL 请 求 远 程 元 存储 的 元 数据 。Spark SQL 通过 连 
接 Hive 提供 的 Metastore 服务 来 获取 Hive 表 的 元 数据 。 

e URL 对 应 的 值 为 thrift://master:9083。 

配置 好 hive - site. xml， 就 可 以 启动 Metastore 服务 了 ， 并 把 它 做 为 后 台 进 程 。 


hive —— servicemetastore > metastore. log 2 > & 1& 
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0 通过 spark - shell 来 使 用 Spark SQL 


按 下 面 的 步骤 来 开启 Spark - Shell 的 使 用 。 
1) 启动 Hive 的 Metastore 服务 。 


hive —— servicemetastore > metastore. log 2 > & 1& 


2) 示例 数据 准备 。 
接 下 来 的 示例 会 读 取 HDFS 上 的 people. json 文件 ， 所 以 需要 预先 从 本 地 把 该 文件 put 到 
HDFS 中 ， 该 文件 在 Spark 的 examples 子 日 录 中 。 数 据 准 备 过 程 如 下 : 
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横 # 进 入 本 地 Spark 安装 目录 下 的 examples 子 目 录 中 
root@ master: ~# cd $ SPARK_HOME 


root@ master:/opt/ software/spark -1.6.3 -bin -hadoop2. 6# cd examples/ src/ main/ resources 


指 # 列 出 该 目录 下 的 文件 ,发 现 people. json 就 在 该 目录 中 
root@ master:/opt/ software/spark -1. 6.3 -bin -hadoop2. 6/examples/src/ main/resources# ll 

total 40 

drwxr —xr ~x 2 500 500 4096 Jul 20 05:28 ./ 

drwxr ~xr ~x 7 500 500 4096 Jul 20 05:28../ 

—rw—r——r-— 1 500500 240 Jul 20 05 :28 full_user. avsc 

—rw—r—-—r-— 1500500 73 Jul 20 05 :28 people. json 

-ITIw-Tr--Tr-- 1500500 32 Jul 20 05:28 people. txt 

-ITw-T--T-- 1500500 185 Jul 20 05 :28 user. avsc 

-Iw-T--T-- 15300500 334 Jul 20 05 :28 users. avro 

—rw—r-—r-— 1500500 615 Jul 20 05:28 users. parquet 


挫 # 在 hdfs 上 创建 /user/root/examples 目录 ,以 便 存储 示例 数据 文件 
root@ master: ~ #hdfs dfs — mkdir /user/ root 


T 


root@ master: ~ #hdfs dfs — mkdir /user/ root/ examples 


捧 # 从 本 地 当前 物理 目录 下 把 示例 文件 people. json 上 传 到 hdfs 上 
root@ master: ~ #hdfs dfs - put /opt/software/ spark — 1.6.3 -bin - hadoop2. 6/examples/src/main/ 


resources/ people. json /user/root/examples 


提 # 查 看 hdfs 指定 目录 下 的 文件 
root@ master: ~ #hdfs dfs — ls /user/root/examples 


Found 1 items 


-ITIw-T--Tr-- 2 root supergroup 73 2016 -11-10 12:09 /user/root/examples/people. json 


3) 启动 spark - shell。 


spark — shell ~— master spark ://master:7077 
4) 运行 示例 。 
通过 Spark SQL 读 取 HDFS 中 的 people. json 文件 ， 并 查看 操作 这 个 数据 文件 。 具 体 运 行 
情况 如 下 : 


拓 ## 创 建 一 个 sqlContext 
val sqlContext = new org. apache. spark. sql. SQLContext( sc) 


挫 # 读 取 json 中 的 数据 并 且 创 建 一 个 Dataframe 


val df = sqlContext. read. json( " examples/people. json" ) 


## 查 看 dataframe 的 内 容 
df. show( ) 


捧 机 how 结果 如 下 
十 
age | name | 
十 
null | Michael | 
30 | Andy | 
19 | Justin | 
中 


村 # 查 看 dataframe 的 树 形 结构 
df. printSchema( ) 


// root 
// | -- age:long (nullable =true) 
// | =-- name:string (nullable =true) 


挫 # 只 查看 name 这 一 列 的 所 有 数据 ,并 且 显 示 出 来 


df. select( "name" ). show( ) 


十 一 一 一 一 一 一 一 + 
name | 

十 一 一 一 一 一 一 一 + 
Michael | 
Andy | 
Justin | 

+ 一 一 一 一 一 一 一 十 


桥 # 查 看 name, 和 age +1 的 结果 ,并 且 show 出 来 
df select( df( "name" ) ,df( "age" ) +1).show() 


二 出 
name | (age +1) | 
而 
Michael | null | 
Andy |31 | 
Justin | 20 | 
四 市 


指 # 选 出 年 龄 大 于 21 岁 的 人 ,并 且 显 示 出 来 
df filter( df( "age" ) >21). show( ) 


二 
age | name | 
0 
30 | Andy | 
中 


Fa 了 ya 


牢 
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区 | Spark SQL 的 命令 终端 | 


Spark SQL 的 CLI (命令 终端 ) 是 一 个 方便 的 工具 ， 以 本 地 方式 运行 在 Hive 的 元 数据 服 
务 上 ， 可 以 直接 在 命令 行 中 输入 查询 语句 进行 查询 。 不 过 需要 注意 的 是 ，SparkSQL 的 CLI 
不 能 操作 Thrift JDBC Server。 下 面 介绍 如 何 使 用 CLI。 

首先 进入 Spark 安装 目录 下 的 bin 目录 ， 启 动 Spark SQL。 


/spark 一 sql 
运行 成 功 后 将 看 到 Spark SQL 命令 提示 符 : 
spark — sql > 


接 下 来 进行 Spark SQL CLI 的 操作 。 
1) 列 出 Hive 中 的 数据 库 列表 。 
在 Spark SQL CLI 中 的 操作 几乎 和 在 DBMS 中 的 操作 一 样 ， 列 出 Hive 中 有 哪些 数据 库 。 


spark — sql > show databases ; 


结果 如 下 所 示 (在 显示 结果 之 前 CLI 中 会 打印 很 多 日 志 信 息 ， 这 里 忽略 日 志 信息 ， 直 
接 显示 结果 ): 


default 


hive 


2) 选择 使 用 Hive 数据 库 。 


spark — sql > use hive; 
3) 查看 数据 库 中 有 哪些 表 ， 结 果 中 表 名 后 的 false 表示 不 是 临时 表 。 


spark — sql > show tables; 


// 结 果 如 下 
sogougl false 
sogoug2 false 
tbdate false 
tbstock false 
tbstockdetail false 


4) 查看 tbdate 表 中 有 多 少 条 数据 。 


spark — sq] > select count( * ) from tbdate; 
4383 


5) 查看 tbdate 表 的 结构 。 


spark — sql > desc tbdate; 


结果 如 下 : 


dateid string 
theyearmonth 
theyear string 
themonth 
thedate string 
theweek 
theweeks 
theqout string 
thetenday 
thehalfmonth 


6) 查看 tbdate 表 的 前 10 条 数据 。 


NULL 

string NULL 
NULL 
string NULL 
NULL 
string NULL 
string NULL 
NULL 
string NULL 
string NULL 


spark — sql > select count( * ) from tbdate limit 10; 


结果 如 下 : 


2003 -1-1 
2003 -1-2 
2003 -1-3 
2003 -1-4 
2003 -1-5 
2003 -1-6 
2003 -1-7 
2003 -1-8 
2003 -1-9 
2003 -1-10 


200301 2003 
200301 2003 
200301 2003 
200301 2003 
200301 2003 
200301 2003 
200301 2003 
200301 2003 
200301 2003 
200301 2003 


0 


Ko 
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[> 


和 


= 
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Spark 的 Web UI 


启动 Spark 集群 后 ， 即 可 访问 Spark 的 Web 控制 台 


Web U1， 直接 在 浏览 器 中 输入 


Http :A/master:8080， 或 者 输入 “http://master 机 需 的 卫 地 址 :8080”， 如 图 1-10 所 示 。 


[Li 预先 在 hosts 中 插入 Master 和 卫 的 映射 记录 ， 比 如 : 192. 168. 1. 18 master， 这 样 就 可 以 直接 访问 http:// 


master:8080 来 打开 Spark 的 Web 控制 台 。 


了 解 Spark 的 Web UI 对 学 习 Spark 非常 重要 ， 可 以 从 Web UI 中 非常 清楚 地 了 解 Spark 
的 运行 过 程 ， 下 面 简单 介绍 。 


© 
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3 Applicationsv Placesv fox Web Browser 王 env Mono6:46 口 串 ~ 
Spark Master at spark//master7077 - Mozilla Firefox wm 


Pk Mester st spark//master:70. x 录 


名) 字 | 轩 19?16soloososo ve||Q search | 女 自 时 会 | 三 


Spaik: 1so Spark Master at spark://master:7077 


URL: spark://master:7077 

REST URL: spark:/master:8088 (cluster mode) 
Alive Workers: 3 

Cores in use: 6 Total, 0 Used 

Memory in use: 9.0 GB Total, 0.0 B Used 
Applications: 0 Running, 2 Completed 
Drivers: 0 Running, 0 Completed 


Status: ALIVE 

Workers 

‘Worker ld Address State Cores Memory 
worker-20160530052121-192.168.0.101-35100 192.168.0.101:35100 ALIVE 2 (0 Used) 3.0 GB (0.0 B Used) 
worker-20160530052152-192.168.0.103-36842 192.168.0.103:36842 ALIVE 2 (0 Used) 3.0 GB (0.0 B Used) 
worker-20160530052157-192.168.0.102-34402 192.168.0.102:34402 ALIVE 2 (0 Used) 3.0 GB (0.0B Used) 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


Completed Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 
app-20160530054408-0001 SparkSQL::192.168.0.100 6 1024.0 MB 2016/05/30 05:44:08 hadoop FINISHED 47 min 
app-20160530054023-0000 SparkSQL::192.168.0.100 6 1024.0 MB 2016/05/30 05:40:23 hadoop FINISHED 3.0 min 
orate on ononts | 314 
和 
图 1-10 Spark 的 Web 控制 台 


e 在 Web UI 的 最 上 面 是 Spark 集群 的 地 址 ， 集 群 的 基本 概况 如 下 : 


URL: spark ://master :7077 //Spark 的 URL 地 址 

REST URL.spark://master:6066 (cluster mode) //Spark 的 REST URL 地 址 

Alive Workers :3 //Spark 集群 中 活着 的 worker 结 点 数 是 3 

Cores in use:6 Total ,0 Used //Spark 集群 共 6 个 Cores, 使 用 了 0 个 

Memory in use:9.0 GB Total ,0.0 B Used //Spark 集群 9GB 内 存 ,使 用 了 0 个 。 
Applications:0 Running,2 Completed //Spatk 集群 的 应 用 0 个 在 运行 ,已 经 完成 2 个 。 
Drivers :0 Running,0 Completed /Spark 集群 Drivers 0 个 运行 ,0 个 完成 。 

Status :ALIVE /Spark 集群 为 活着 状态 


从 概况 中 可 以 知道 集群 的 地 址 、 规 模 、 资 源 、 运 行 过 多 少 个 APP 及 集群 的 状态 。 
e 在 Workers 一 栏 中 可 以 看 到 每 个 worker 的 ID 、 地 址 、 状 态 、cores 的 个 数 和 内 存 状 态 。 
e 在 Running 一 栏 中 可 以 看 到 目前 正在 运行 的 Applications 的 ID 、 名 称 、 
CPU 资源 、 结 点 上 使 用 内 存 资源 的 情况 、 程 序 提交 的 时 间 、 哪 个 用 户 提交 的 、 目 
前 运行 的 宙 态 ， 程序 运行 的 时 间 ， 
e 在 Completed Applications 这 一 栏 中 ， 是 已 经 运行 完成 的 Spark 程序 的 信息 。 


和 本 章 小 结 


本 章 介 绍 了 Spark SQL 的 发 展 概况 ， 使 读者 对 Spark SQL 有 了 初步 的 了 解 ， 讲 解 了 Spark 
境 的 搭建 、SparkSQL 的 基本 操作 ， 以 及 Hive 的 基础 操作 ， 并 且 初 步 介 绍 了 Spark SQL 的 
使 用 ， 包括 Spark SQL CLI (命令 行 界面 ) ， 以 及 Spark Web UI 的 基本 操作 。 


站 全 也 DataFrame 原 理 与 常用 操作 


第 2 章 ，DataFrame 原理 与 常用 操作 “ 它 


本 章 将 介绍 DataFrame 编程 模型 、 基 本 操作 、API 的 使 用 ， 以 及 DataFrame 与 RDD 的 实 
战 应 用 。 在 开始 本 章 DataFrame 的 实践 案例 之 前 ， 需 要 对 DataFrame 编程 模型 有 一 个 基础 了 
解 。Spark 从 1.3 版 本 开始 引入 了 新 的 DataFrame 编程 模型 ，DataFrame 类 似 于 关系 数据 库 的 
表 ， 这 一 组 件 的 引入 ， 简 化 了 Spark SQL 的 处 理 ， 并 简化 了 编程 复杂 度 ， 极 大 地 方便 了 
Spark SQL 的 应 用 。 


DataFrame 编程 模型 


DataFrame 这 个 名 字 是 取 自 R、 Python 等 语言 中 的 概念 ，DataFrame 在 数据 统计 、 分 析 的 
语言 里 扮演 了 举足轻重 的 角色 。Spark 引入 DataFrame 实现 了 在 大 数据 平台 同样 的 统计 分 析 
功能 。 随 着 不 断 地 优化 ，DataFrame 可 以 由 更 广阔 的 数据 源 来 创建 ， 例 如 : 结构 化 的 数据 文 
件 、Hive 表 、 外 部 数据 库 或 者 现 有 的 RDD。 

在 前 面 1.1. 2 一 节 中 ， 我 们 已 经 了 解 了 DataFrame 与 RDD 之 间 的 差异 。 为 了 更 好 地 理 
解 DataFrame 究竟 是 什么 ， 通 过 图 2-1 再 把 DataFrame 与 RDD 进行 对 比 。 


RDDs DataFrame 
ld Name 
Data 1 Bob 
Data 2 Tom 
Data 3 Tim 


图 2-1 DataFrame 和 RDD 进行 对 比 


从 图 2-1 中 可 以 看 出 : 

1) RDD 的 每 一 项 数据 都 是 一 个 整体 ， 这 也 就 导致 了 Spark 框架 无 法 洞悉 数据 记录 内 部 
的 细节 ， 限 制 了 Spark SQL 的 性 能 提升 。 

2) DataFrame 的 数据 特点 如 图 2-1 右边 所 示 ， 其 包含 了 每 个 数据 记录 的 Metadata 信息 ， 
可 以 在 优化 时 基于 列 内 部 进行 优化 (例如 一 共 30 列 ， 如 果 只 需要 其 中 10 列 ， 那 么 就 可 以 只 
获取 其 中 10 列 的 信息 ， 而 不 需要 把 所 有 30 列 的 数据 全 部 取出 ) 。 

DataFrame 更 像 是 RDD 的 加 强 版 ， 带 有 更 多 的 细节 信息 ， 与 普通 RDD 不 同 的 就 是 Dat- 
aFrame 是 有 Schema (标记 ) 的 ， 也 就 是 说 ，DataFrame 是 带 有 每 一 列 信息 的 。 可 以 把 Dat- 
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aFrame 理解 为 一 个 分 布 式 的 二 维 表 ， 每 一 列 都 带 有 名 称 和 类 型 ， 这 就 意味 着 Spark SQL 可 以 
基于 每 一 列 数据 的 元 数据 进行 更 加 细 粒 度 的 分 析 ， 而 不 是 如 同 以 往 分 析 RDD 的 时 候 那 种 粗 
粒度 的 分 析 。 于 是 基于 DataFrame 就 可 以 进行 更 加 高 效 的 性 能 优化 。 

DataFrame 编程 模型 的 功能 特性 如 下 : 

。 从 KB 到 PB 级 的 数据 量 支 持 。 

e 多 种 数据 格式 和 多 种 存储 系统 支持 。 

e 通过 Spark SQL 的 Catalyst 优化 器 进行 优化 ， 生 成 代码 。 

e 为 Python 、Java、Scala 和 有 R 语言 (SparkR) 提供 API。 


DataFrame 基本 操作 实战 


本 节 给 出 了 一 个 集团 公司 对 人 事 信 息 处 理 场景 的 简单 案例 ， 详 细 分 析 DataFrame 上 的 各 
种 常用 操作 ， 包 括 集团 子 公司 间 的 职工 人 事 信息 的 合并 、 职 工 的 部 门 相关 信息 查询 、 职 工 信 
息 的 统计 、 关 联 职工 与 部 门 信息 的 统计 ， 以 及 如 何 将 各 种 统计 得 到 的 信息 存储 到 外 部 存储 系 
统 等 。 

在 本 案例 中 ， 涉 及 的 DataFrame 操作 包括 : 

e 从 外 部 文件 构建 DataFrame。 

e 在 DataFrame 上 进行 比较 常用 的 操作 。 

e 多 个 DataFrame 之 间 的 操作 。 

e DataFrame 的 持久 化 操作 等 。 


区 数据 准备 


数据 准备 包含 下 面 两 部 分 内 容 : 

。 创建 数据 文件 。 

。 将 数据 文件 上 传 到 HDFS 存储 系统 上 。 

1. 创建 数据 文件 

首先 ， 在 本 地 文件 目录 中 ， 分别 创建 下 面 的 数据 文件 : 


e 员工 信息 : people. json。 


e 新 增 员 工 : newPeople. json 。 
e 部 门 信息 : department. json。 


1) 创建 员工 信息 文件 (people. json ) 。 


| "name" :" Michael" ,"job number" :"001" ,"age" :33," gender" :" male" ," depld" :1," salary" :3000} 
| "name" :" Andy" ,"job number" :"002" ,"age" :30," gender" :"female" ," depld" :2," salary" :4000|} 

| "name" :" Justin" ," job number" :"003" ,"age" :19," gender" :"male" ," depId" :3," salary" :5000| 

| "name" :" John" ,"job number" :"004" ,"age" :32," gender" :" male" ," depld" :1," salary" :6000|} 

| "name" :" Herry" ," job number" :"005","age" :20," gender" :"female" ," depld" :2," salary" :7000} 
| 1 


"name" :"Jack" ,"job number" :"006" ,"age" :26," gender" :" male" ," depld" :3," salary" :30001 
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people. json 文件 包含 了 员工 的 相关 信息 ， 每 一 列 分 别 对 应 : 
员工 姓名 、 工 号 、 年 龄 、 性 别 、 部 门 DD 及 薪资 。 
2) 创建 新 增 员 工 信 息 文件 (newPeople. json) 。 


| "name" :"John" ,"job number" :"007" ,"age" :32 ," gender" :"male" ,"depId" :1 ,"salary" :4000|} © 
| "name" :" Herry" ," job number" :"008" ," age" :20," gender" :"female" ," depld" :2," salary" :5000| 
| "name" :"Jack" ,"job number" :"009" ,"age" :26," gender" :" male" ," depld" :3," salary" :6000| 


newPeople. json 对 应 新 人 职员 工 的 信息 ， 数 据 结构 与 员工 信息 一 致 。 
3) 创建 部 门 信息 文件 〈department, json ) 。 


| "name" :" Development Dept" ," depld" :1) 
| "name" :" Personnel Dept" ," depld" :2} 


| "name" :"Testing Department" ," depld" :3} 


department. json 是 部 门 信息 ， 包 含 两 列 部 门 名 称 和 部 门 ID。 

其 中 ， 部 门 ID 对 应 员工 信息 中 的 部 门 D， 即 员工 信息 文件 中 的 depID 列 。 
2. 将 数据 文件 上 传 到 HDFS 存储 系统 上 

1) 将 这 3 个 数据 文件 上 传 到 Hadoop 集群 中 ,命令 如 下 : 


挫 列 出 当前 目录 下 的 3 个 数据 文件 
root@ Master: ~ /test# ls 


department. json newPeople. json people. json 


## 上 传 用 户 信息 文 件 到 HDFS 
root@ Master: ~ /test#hadoop dfs -put . /people. json /library/ SparkSQL/ Data 


持 # 上 传 用 户 信息 文件 到 HDFS 
root@ Master: ~ /test#hadoop dfs — put . /newPeople. json /library/ SparkSQL/ Data 


### 上 传 部 门 信息 文件 到 HDFS 
root@ Master: ~ /test#hadoop dfs -put . /department. json /library/ SparkSQL/ Data 


需要 预先 在 HDFS 上 创建 好 /library/SparkSQL/Data 文件 夹 。 


2) 通过 HDFS 命令 查看 上 传 结果 。 
通过 Hadoop 的 命令 行 ， 来 查看 上 传 文件 是 否 成 功 。 


root@ Master:/usr/local/ hadoop/ hadoop -2. 6. 0/sbin# hdfs dfs — 1s /library/ SparkSQL/ Data 

Found 3 items 

—IW—r——r-—— 3 7root supergroup 115 2016 -04-23 23:28 /library/ SparkSQL/ Data/ department. json 
—IW—r——r—— 3 1oot supergroup 255 2016 -04 -23 23:27 /library/ SparkSQL/ Data/ newPeople. json 
—IW—r——r—— 3 1oot supergroup 514 2016 -04 -23 23:26 /library/ SparkSQL/ Data/ people. json 
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可 以 看 到 ，3 个 文件 已 经 上 传 到 HDFS 存储 系统 上 。 

3) 通过 Hadoop 的 Web 控制 台 查 看 上 传 结 

还 可 以 通过 Web 控制 台 的 方式 查看 HDFS 上 的 文件 ， 打 开 网 址 http://Master:50070， 即 
可 进入 Hadoop 的 Web 控制 台 ， 如 图 2-2 所 示 。 


Hadoop OQverview Datanodes Snapshot Startup Progress Utilities 


Browse Directory 


/ibrary/SparkSAL /Data 


Pernission Group Replication Block Size Hame 
一 supergroup 3 128 了 department. json 
一 wz 一 一 supergroup 3 128 了 newPeople. json 


一 WwW 一 一 supergroup 3 128 到 people. json 


Hadoop, 2014. 


人 说 


As 
口 


得 
过 


2-2 Hadoop Web 控 


209 启动 交互 式 界 面 


按 下 面 步 又 启动 Spark - Shell 交互 式 界面 。 
1) 启动 Spark 集群 。 


root@ Master: ~# cd /usr/local/ spark/spark -1.6.3 -bin - hadoop2. 6/sbin/ 
root@ Master:/usr/local/ spark/spark — 1. 6. 3 -bin -hadoop2. 6/sbin# . /start — all. sh 


2) 启动 日 志 管 理 。 


root@ Master:/usr/local/ spark/ spark — 1. 6. 3 -bin -hadoop2. 6/sbin# . /start — history — server. sh 
starting org. apache. spark. deploy. history. HistoryServer, logging to /usr/local/spark/spark - 1.6.3 — 
bin — hadoop2. 6/logs/ spark — root — org. apache. spark. deploy. history. HistoryServer — 1 - Mas- 


ter. out 
3) 启动 交互 式 界 面 。 


root@ Master:/usr/local/ spark/ spark — 1. 6. 3 -bin - hadoop2. 6/sbin# cd . . /bin 
root@ Master:/usr/local/spark/spark - 1.6.3 - bin - hadoop2. 6/bin# ./spark — shell —— master 
spark :// Master :7077 
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启动 后 出 现 如 下 信息 : 


Welcome to 人 


2 ZZ 
7 
/Versionn lg Oss 
ZF 


scala > 


这 部 分 内 容 将 对 员工 信息 文件 及 部 门 信息 文件 进行 数据 处 理 和 分 析 ， 下 面 是 具体 的 操作 


1， 修改 日 志 等 级 


scala > import org. apache. log4j. Level 
import org. apache. log4j. Level 


scala > import org. apache. log4]. Logger 
import org. apache. log4j. Logger 


scala > Logger. getLogger( " org. apache. spark" ). setLevel( Level WARN ) 


scala > Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level WARN) 


将 日 志 等 级 设置 为 Level WARN， 是 为 了 简化 界面 的 输出 信息 。 
2. 加 载 文 件 


//// 创 建 一 个 sqlContext 
scala > val sqlContext = new org. apache. spark. sql. SQLContext( sc) 


scala > val people = sqlContext. jsonFile( " hdfs:/library/ SparkSQL/ Data/ people. json" ) 
people: org. apache. spark. sql. DataFrame = |[ age: bigint, depld: bigint, gender: string, job number: 


string, name : string, salary : bigint | 
scala > val dept = sqlContext load( "hdfs:/library/ SparkSQL/ Data/ department. json" , "json" ) 


dept: org. apache. spark. sql. DataFrame = [ depld :bigint, name : string | 


上 面 示 范 了 两 种 方式 ， 分别 加 载 HDFS 上 的 员工 信息 文件 和 部 门 信息 文件 ， 得 到 了 两 个 
DataFrame 实例 : people 和 dept。 


Spark SQL 大 数据 实例 开发 示 程 


3. 以 表格 形式 查看 people 信息 


scala > people. show 


+ + + 
age | depld | gender | job number | name | salary | 
十 十 十 
33 1| male 001 | Michael | ”3000 
30 2 | female | 002 | Andy| 4000 
19 3| male 003 | Justin | 5000 | 
32 1| male 004| John| 6000 
20 2 | female | 005 | Herry | 7000 | 
26 3| male 006| Jack| 3000 
下 下 + + 十 + 


通过 show 方法 ， 可 以 以 表格 的 形式 输出 各 个 DataFrame 的 内 容 。 
4. DataFrame 基本 信息 的 查询 


//// 查 询 people 包含 的 全 部 列 信息 
scala > people. columns 


res4: Array[ String | = Array(age,depId,gender,job number,name,salary) 


//// 统 计 people 包含 的 记录 条 数 
scala > people. count 


resS :Long =0 


//// 获 取 前 3 条 记录 信息 ,并 以 数组 形式 呈现 

scala > people. take( 3) 

res6: Array[ org. apache. spark. sql. Row | = Array ( [33,1,male,001, Michael,3000 |] ,| 30,2, female, 
002, Andy,4000 ] ,[ 19 ,3, male ,003 ,Justin ,5000 ] ) 


//// 将 people 转换 为 JsonRDD ,并 使 用 RDD 的 collect 方法 返回 
scala > people. toJSON. collect 


res7: Array[ String | = Array (| " age" :33," depld":1," gender":" male"," job number" :" 001", 
"name" :" Michael" ," salary" :3000}|, | "age" :30," depId" :2," gender" :" female" ," job num- 
ber" :"002"," name" :" Andy" ," salary" :4000),|"age" :19," depld" :3," gender" :" male", 
"job number" :"003" ,"name" :" Justin" ," salary" :5000}|, | "age" :32," depld" :1," gender". 
"male" ," job number" :"004","name" :" John" ," salary" :6000} ,| "age" :20," depld" :2," gen- 
der" :"female" ,"job number" :"005" ," name" :" Herry" ," salary" :7000}|, | "age" :26," dep- 
Id" :3,"gender" :" male" ,"job number" :"006" ,"name" :" Jack" ,"salary" :30001 ) 


以 上 是 针对 员工 信息 的 DataFrame 进行 一 些 基 本 信息 的 查询 操作 : 
e 使 用 DataFrame 的 columns 方法 ， 查 询 people 包含 的 全 部 列 信 息 ， 以 数组 形式 返回 列 
名 组 。 
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e 使 用 DataFrame 的 count 方法 ， 统 计 people 包含 的 记录 条 数 ， 即 员工 个 数 。 

e 使 用 DataFramed 的 take 方法 ， 获 取 前 3 条 员工 记录 信息 ， 并 以 数组 形式 呈现 出 来 。 

e 最 后 使 用 DataFrame 的 toJSON 方法 ， 将 people 转换 为 SONRDD 类 型 ， 并 使 用 RDD 的 
collect 方法 返回 其 包含 的 员工 信息 。 > 

5. 对 员工 信息 进行 条 件 查询 ， 并 输出 结果 


//// 使 用 filter 方法 ,统计 性 别 为 男性 的 记录 数 
scala > people. filter(" gender 2 male "). count 
res8 :Long =4 

// 或 者 使 用 下 面 的 写法 


scala > people. filter( $ " gender 


"===" male" ). count 


res8 :Long =4 


//// 使 用 filter 方法 ,统计 性 别 不 为 女性 的 记录 数 
scala > people. filter( $ " gender" | == "female" ). count 
res9 :Long =4 

// 或 者 使 用 下 面 的 写法 

scala > people. filter( " gender! 2 female "). count 


res9 :Long =4 


//// 使 用 filter 方法 ,查询 并 显示 年 龄 大 于 25 岁 的 记录 


scala > people. filter( $ "age" > 25 ). show 


十 十 让 
age | depld | gender | job number | name | salary | 

+ + + 
33 | 1| male| 001 | Michael | 3000 | 
30 | 2 | female | 002| Andy| 4000 | 
32 | 1| male| 004| John| 6000| 
26 | 3| male| 006| Jack | 3000 | 

才 二 


//// 使 用 where 方法 ,查询 并 显示 年 龄 大 于 28 岁 的 记录 


scala > people. where($ "age" >28). show 


加 
age | depId | gender | job number | name | salary | 
十 
33 | 1| male| 001 | Michael | 3000 | 
30 | 2 | female | 002 | Andy| 4000 | 
32 | 1| male| 004| John| 6000| 
, 是 


//// 使 用 where 方法 ,查询 并 显示 年 龄 大 于 25 岁 并 且 性 别 为 男性 的 记录 
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scala > people. where($ "age" >25 && $ "gender" === "male" ). show 

+ 

age | depld | gender | job number | name | salary | 
+ 

33 | 1| male| 001 | Michael | 3000 | 

39 吕 1| male| 004 | John | 6000| 

26 | 3 | male | 006 | Jack | 3000 | 

| 所 


//// 使 用 where 方法 ,查询 并 显示 年 龄 大 于 25 岁 的 记录 
scala > people. where( age >25 ). show 


二 
age | depld | gender | job number | name | salary | 
让 
33 1| male| 001 | Michael | 3000 | 
30 2 | female | 002| Andy| 4000 | 
32 1| male| 004| John | 6000| 
26 3 | male | 006 | Jack | 3000 | 
了 : | 
在 上 述 示 例 中 ， 针 对 员工 信息 的 DataFrame， 进 行 了 一 些 条 件 查询 操作 : 


e 使 用 count 方法 统计 了 “gender” 列 为 “male” 的 员工 数 。 

e 基于 “age” 和 “gender” 两 列 ， 使 用 不 同 的 查询 条 件 ， 不 同 的 DataFrame API， 即 where 
和 filter 方法， 对 员工 信息 进行 过 滤 。 

。 最 后 仍然 使 用 show 方法 ， 将 查询 结果 以 表格 的 形式 呈现 出 来 。 

。 在 各 个 例子 中 ， 使 用 了 几 种 不 同 的 方式 ， 作 为 查询 条 件 的 参数 。 


[0 特别 注意 上 面 查询 条 件 表 达 式 中 的 单 引 号 及 $ 符号。 


6. 根据 指定 的 列 名 ， 以 不 同方 式 进行 排序 


//// 先 按 工 号 升序 排序 ,再 按 部 门 降序 排序 ,显示 全 部 记录 


scala > people. sort($ "job number". asc, col(" ea ). desc). show 


i 
age | depld | gender | job number | name | salary | 
+ 

33 1| male| 001 | Michael | 3000 | 
30 2 | female | 002 | Andy| 4000 | 
19 3 | male | 003 | Justin | 5000 | 

32 1| male| 004| John | 6000| 
20 2 | female | 005 | Heny | 7000 | 
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| 26 | 3 | male | 006 | Jack | 3000 | 


//// 先 按 工 号 升序 排序 , 仅 显 示 前 3 条 记录 
scala > people. sort($ "job number" ). show(3) 
// 或 者 


scala > people. sort(" job number" ). show(3) 


age | depld | gender | job number | name | salary | 
+ 
33 | 1| male| 001 | Michael | 3000 | 
30 | 2 | female | 002 | Andy| 4000 | 
19 | 3 | male | 003 | Justin | 5000 | 
让 | , 


only showing top 3 rows 


//// 先 按 工 号 倒序 排序 , 仅 显 示 前 3 条 记录 
scala > people. sort($ "job number". desc). show(3) 


村 
age | depld | gender | job number | name | salary | 
十 
26 | 3 | male | 006 | Jack | 3000 | 
20 | 2 | female | 005 | Herry | 7000 | 
32 | 1| male| 004 | John | 6000 | 
让 , ' 


only showing top 3 rows 


在 上 述 示例 中 ， 针 对 员工 信息 DataFrame， 基 于 “job number” 和 “depId” 两 列 ， 使 用 sort 
方法 ， 以 不 同方 式 进行 排序 ， 并 输出 结果 ， 有 具体 包含 ， 
e 先 以 “job number” 列 升序 ， 然 后 再 按 “depId” 列 降序 的 方式 ， 对 people 进行 排序 ， 
并 输出 排序 后 的 内 容 ; 这 里 给 出 了 两 种 指定 列 的 方式 。 
e 以 “job number” 列 进行 默认 排序 〈 升 序 ) ， 并 显示 排序 后 的 前 3 条 记录 。 
e 以 “job number” 列 指定 降序 方式 排序 ， 并 显示 排序 后 的 前 3 条 记录 。 
7. 为 员工 信息 增加 一 列 : 等 级 (“level”) 


scala > people. withColumn(" level" ,people(" age" )/10). show 


本 
age | depld | gender | job number | name | salary | level | 

十 
33 | 1 | male| 001 | Michael | 3000| 3.3| 
30 | 2 | female | 002 | Andy| 4000| 3.0| 
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| 19 | 3 | male| 003 | Justin | 5000| 1.9 
| 32 | 1 | male| 004| John| 6000| 3.2 
| 20 | 2 | female | 005 | Hery| 7000| 2.0 
| 26 | 3| male | 006 | Jack| 3000| 2.6| 
| 上 


在 上 述 示例 中 ， 通 过 withColumns 方法 增加 了 新 的 一 列 等 级 信息 ， 列 名 为 “level”。 在 
withColumns 方法 中 

第 一 个 参数 “level” 指 定 了 新 增 列 的 列 名 。 

第 二 个 参数 people( "age" )/X10， 指 定 了 该 列 的 实例 ， 通 过 转换 得 到 新 列 ，people(" 
age" ) 调 用 了 DataFrame 的 apply 方法 ， 返 回 “age” 列 名 所 对 应 的 列 。 

8.， 修改 工 号 列 名 


scala > people. columns 
resl3. Array| String | = Array(age,depId,gender,job number,name,salary ) 


scala > people. withColumnRenamed("job number" ,"jobId" ). columns 


有 


res15 : Array[ String | = Array(age,depId,gender,jobId,name,salary) 


在 上 述 示例 中 ， 通 过 withColumnRenamed 方法 修改 列 名 ， 示 例 将 people 的 “job number” 
列 名 修改 为 “jobId”， 通 过 交互 式 输出 信息 可 以 看 到 列 名 已 经 被 修改 。 
注意 ， 修 改 的 列 名 如 果 不 存 在 ， 不 会 报错 ， 但 列 名 不 会 修改 ， 如 下 所 示 


scala > val rnjobnum = people. withColumnRenamed("job numbe" ,"jobId" ) 


rnjobnum: org. apache. spark. sql. DataFrame = | age: bigint, depld: bigint, gender: string, job number: 


string, name : string , salary : bigint | 


scala > rnjobnum. columns 


res16: Array| String | = Array( age, depld, gender, job number, name, salary) 


scala > people. columns 


res17:Array| String | = Array( age, depld, gender, job number,name,salary ) 


在 该 示例 中 ， 指 定 修改 的 “job numbe” 列 名 拼写 错误 ( 少 了 一 个 字母 r) ， 所 以 正确 的 
列 名 “job number” 并 没有 修改 成 功 。 
9， 增 加 新 员工 


//// 使 用 jsonFile 方法 加 载 新 员工 信息 文件 
scala > val newPeople = sqlContext. jsonFile( " hdfs:/library/ SparkSQL/ Data/ newPeople. json" ) 
newPeople: org. apache. spark. sql. DataFrame = [| age: bigint, depId: bigint, gender: string, job number: 


string, name : string , salary : bigint | 


//// 展 示 新 员工 信息 
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scala > newPeople. show 


age | depld | gender | job number | name | salary | 


: © 


32 | 1| male| 007 | John | 4000 | 
20 | 2 | female | 008 | Herry | 5000 | 
26 | 3| male| 009 | Jack | 6000 | 
+ 二 + + + + 


//// 合 并 people 和 newPeople 


scala > people. unionAll( newPeople ). show 


让 
age | depld | gender | job number | name | salary | 
让 

33 1| male 001 | Michael | 3000 
30 2 | female | 002| Andy| 4000 
19 3| male 003 | Justin | 5000 | 
32 1| male 004| John| 6000 
20 2 | female | 005 | Herry | 7000 | 
26 3| male 006 | Jack | 3000 
32 1| male 007| John| 4000 
20 2 | female | 008 | Herry | 5000 | 
26 3| male 009 | Jack | 6000 

t 让 


在 上 述 示 例 中 ， 使 用 jsonFile 方法 加 载 了 新 员工 信息 的 文件 ， 然 后 调用 people 的 union- 
Al 方法 ， 将 新 加 载 的 newPeople 合并 进来 。 

注意 : 因为 加 载 文件 是 lazy 性 质 的 ， 由 于 没有 对 DataFrame 进行 缓存 ， 因 此 最 终 合并 时 
会 重新 加 载 新 旧 两 个 员工 信息 文件 。 

10. 查 同 名 员工 


//// 通 过 unionAll 方法 将 people 和 new People 两 个 信息 文件 进行 合并 
//// 然 后 使 用 groupBy 方法 将 合并 后 的 DataFrame 按照 “name” 列 进行 分 组 统计 
scala > val group Name = people. unionAll( newPeople). groupBy( col( "name" ) ). count 


groupName :org. apache. spark. sql. DataFrame = [ name :string, count: bigint | 


scala > groupName. show 


+ + 


name | count | 


十 十 


Jack | 

John | 

Andy | 
Michael | 
Justin | 


Henry | 
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2 | 
2 | 
1| 
1 | 
1 | 
2| 


//// 使 用 filter 方法 ,过 滤 “count” 列 大 于 1 的 记录 并 显示 


scala > groupName. filter($ " count" >1). show 


name | count | 
到 

Jack | 2 

John | 2| 

Heny| 2| 
一 一 一 一 一 + 一 一 一 一 一 + 


//// 使 用 函数 式 编程 范式 对 前 两 个 合并 进行 分 组 统计 并 显示 结 


scala > people. unionAll( newPeople). groupBy( col( "name" ) ). count. filter($ " count" <2). show 


时 
name | count | 
二 出 
Andy | 1 | 
Michael | 1 | 
Justin | 1 | 
汕 


在 上 述 示例 中 ， 首 先 通过 unionAll 方法 将 people 和 newPeople 两 个 文件 进行 合并 ， 然 后 
使 用 groupBy 方法 将 合并 后 的 DataFrame 按照 “name” 列 进行 分 组 ， 得 到 GroupData 类 的 实 
例 ， 实 例会 自动 带 上 分 组 的 列 ， 以 及 “count” 列 。 

GroupData 类 提供 了 一 组 非常 有 用 的 统计 操作 ， 这 里 调用 它 的 count 方法 ， 最 终 实现 对 


员工 名 字 的 分 组 统计 。 


GroupData 类 在 Spark 2. 0. x 版 本 改 为 RelationalGroupedDataset。 


11. 分 组 统计 信息 


//// 调 用 groupBy 方法 得 到 GroupData 实例 ,再 调用 agg 方法 
scala > val depAgg = people. groupBy( " depld" ). agg( Map( 


| 1 一 > "maxn" 
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| "gender" —>"count" 


| 六 
depAgg:org. apache. spark. sql. DataFrame = [ depId:bigint,max(age) :bigint,count( gender) : bigint | 


© 


scala > depAgg. show 


证 
depld | max(age) | count( gender) | 
1 33 | 2| 
2 30 | 2 
3 26 | 2| 
//// 调 用 DataFrame 的 toDF 方法 ,重新 命名 depAgg 的 全 部 列 名 ,增加 列 名 的 可 读 性 


scala > depAgg. toDF ("depld" ," maxAge" ,"countGender" ). show 


十 
depId | maxAge | countGender | 
十 
i | 33 | 2 
2| 30 | | 
3 | 26 | 2| 
十 


在 上 述 示 例 中 ， 首 先 针 对 people 的 “depId” 进 行 分 组 ， 再 对 分 组 后 得 到 的 GroupData 
实例 继续 调用 agg 方法 ， 分 别 对 “age” 列 求 最 大 值 ， 对 “gender” 进 行 分 组 统计 ， 返 回 
DataFrame 对 象 实例 depAgg。depAgg 的 schema 为 [ depld: bigint, max(age) :bigint,count( gen- 
der) :bigint] ， 即 除了 带 上 分 组 用 的 “depId” 列 外 ， 还 带 上 列 聚 合 操作 后 的 两 列 信息 。 

12. 名 字 去 重 


//// 通 过 select 选取 name 列 并 显示 


scala > people. unionAll( newPeople). select(" name" ). show 


Michael | 
Andy 

Justin | 
John | 


Henry | 
Jack | 
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//// 通 过 select 选取 name 列 ,在 通过 distinct 方法 去 重 之 后 显示 
scala > people. unionAll( newPeople). select( "name" ). distinct. show 


十 一 一 一 一 一 一 一 + 


Andy | 
Michael | 
Justin | 


Heny | 


在 上 述 示 例 中 ， 首 先 显示 新 旧 员 工 信 息 合并 后 的 “name” 列 ， 作 为 后 续 去 重 的 比较 对 
象 。 通 过 unionAll 新 旧 员 工 信 息 ， 并 只 选择 其 中 的 “name” 列 信息 后 ， 出 现 的 “name” 信 


息 就 出 现 列 重 复 ， 通 过 继续 调用 DataFrame 的 distinct 去 重 方法 后 ， 可 以 去 除 重 复 的 记录 
数据 。 


13. 对 比 新 旧 员 工 表 


//// 显 示 在 people 中 ,但 是 不 在 newPeople 中 的 姓名 


scala > people. select( "name" ). except( newPeople. select($ "name" ) ). show 


十 一 一 一 一 一 一 一 十 
name | 
二 一 一 一 一 一 一 一 十 
Andy | 
Justin | 
Michael | 
二 一 一 一 一 一 一 一 十 


//// 显 示 既 在 people 中 ,又 在 newPeople 中 的 姓名 


scala > people. select( "name" ). intersect( newPeople. select($ " name" ) ). show 


16/04/24 14:16:04 INFOmapred. FileInputFormat :Total input paths to process :1 


16/04/24 14:16:04 INFOmapred. FileInputFormat :Total input paths to process :1 


name | 
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a 人 


在 上 述 示例 中 ， 包 含 了 对 people 和 newPeople 两 个 员工 信息 文件 中 “name” 列 的 两 种 比 
较 方式 ， 具 体 如 下 : 

第 一 种 : 分 别 选 取 people 和 newPeople 两 个 员工 信息 文件 中 的 “name” 列 ， 然 后 通过 调 
用 except 方 法， 获取 在 people 中 出 现 但 不 在 newPeople 中 出 现 的 “name” 信 息 ， 最 后 以 表格 
形式 呈现 结果 。 

第 二 种 : 求 “name” 的 交集 ， 即 分 别 选 取 people 和 newPeople 两 个 员工 信息 文件 中 的 
“name” 列 ， 然 后 通过 调用 intersect 方法 ， 获 取 在 people 中 出 现 但 同时 又 在 newPeople 中 出 
现 的 “name” 人 信息， 最 后 以 表格 形式 呈现 结 

14. 关联 两 个 DataFrame 实例 

本 实例 查询 员工 信息 及 员工 所 属 的 部 门 : 员工 信息 people 的 DataFrame 中 包括 年 龄 、 部 
门 ID、 | 工 号 、 姓 名 、 薪 酬 等 信息 ; 部 门 信 息 dept 的 DataFrame 中 包括 部 门 ID、 部 站 
名 称 等 信息 ; 员工 信息 people 和 部 门 信息 dept 根据 部 门 ID 号 进行 关联 。 


scala > val dept = sqlContext. jsonFile( " hdfs:/library/ SparkSQL/ Data/ department. json" ) 
dept: org. apache. spark. sql. DataFrame = [ depld :bigint, name : string | 


scala > people. join( dept, people( "depId" ) === dept( " depld" ) ," outer" ). show 
十 t t t + 
age | depld | gender | job number | name | salary | deplId | name | 
t t t t + 
32 1| male| 004 | John | 6000 | 1| Development Dept | 
33 1| male| 001 | Michael | 3000 | 1 | Development Dept | 
30 2 | female | 002 | Andy | 4000 | 及] Personnel Dept | 
20 2 | female | 005 | Herry | 7000 | 2| Personnel Dept | 
19 3| male| 003 | Justin | 5000 | 3 | Testing Department | 
26 3| male| 006| Jack | 3000 | 3 | Testing Department | 
下 3 + 3 + 


在 上 述 示例 中 ,， 通 过 调用 join 方法 ， 把 people 中 的 “depId” 列 与 dept 中 的 “depld” 
列 进行 outer join 关联 操作 。 


DataFrame 实例 间 的 join 关联 操作 ， 包 括 inner、outer 、left outer、right outer 、left semi。 
e@ inner join: 等 值 连 接 ， 只 返回 两 个 表 中 联结 字段 相等 的 行 。 
@ outer join: 包含 左 、 右 两 个 表 的 全 部 行 ， 不 管 另外 一 这 的 表 中 是 否 存在 与 它们 匹配 的 行 。 
@ left_outer join: 如 果 右 边 有 多 行 和 左边 表 对 应 ， 就 每 一 行 都 映射 输出 ; 如 果 右 边 没有 行 与 左边 行 对 应 ， 
就 输出 左边 行 ， 右边 表 字段 为 NULL。 
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right_outer join: 如 果 左 边 有 多 行 和 右边 表 对 应 ， 就 每 一 行 都 映射 输出 ;如果 左 边 没 有 行 与 右边 行 对 应 ， 
就 输出 右边 行 ， 左 边 表 字段 为 NULL。 

leftsemi join: 相当 于 SQL 的 in 语句， 如 果 右 边 有 多 行 和 左边 表 对 应 ， 重 复 的 多 条 记录 不 输出 ， 只 输出 
一 条 记录 。 如 果 右 边 没 有 行 与 左边 行 对 应 ， 不 输出 记录 。 


由 于 people 与 dept 的 两 个 DataFrame 中 用 于 关联 的 列 名 相同 ， 都 是 “depIld”， 因 此 ， 指 
定 关联 条 件 表达 式 时 ， 需 要 指出 列 所 属 的 具体 DataFrame 实例 ， 否 则 会 报错 。 但 是 ， 如 果 两 
个 列 名 不 同 ， 则 可 以 直接 使 用 列 名 ， 表 达 式 会 更 加 精简 ， 比 如 


//// 在 dept 中 ,把 depId 列 名 重 命名 为 id, 然 后 赋予 新 的 mmDept 对 象 
scala > val rnDept = dept. withColumnRenamed( " depld" ,"id" ) 


rnDept:org. apache. spark. sql. DataFrame = [ id:bigint,name:string | 


//// 对 people 和 rmDept 进行 关联 操作 ,因为 列 名 不 同 ,所 以 表达 式 可 以 直接 使 用 列 名 


scala > val joinP = people. join( rnDept, $ "depld" === $ "id" ,"outer" ) 


joinP ; org. apache. spark. sql. DataFrame = [ age: bigint, depld : bigint, gender: string, job number: string, 


name: string, salary : bigint , id : bigint, name : string | 


//// 显 示 结 果 


scala > joinP. show 


十 t t t + 
age | depld | gender | job number | name |salary | id | name | 
下 十 十 十 下 
33 1| male| 001 | Michael | 3000| 1| Development Dept | 
32 1| male| 004| John| 6000 | 1| Development Dept | 
30 2 | female | 002| Andy| 4000| 2 Personnel Dept | 
20 2 | female | 005 | Hery| 7000| 2| Personnel Dept | 
26 3| male | 006 | Jack| 3000| 3 |Testing Department | 
19 3 | male | 003 | Justin | 5000 | 3 |Testing Department | 
二 + * * + 二 + 


15. 关联 操作 后 按 部 门 名 分 组 统计 


scala > val joinGp = joinP. groupBy( dept( "name" ) ). agg( Map( 


| 1 agen 一 > "maxn 
| "gender" -> "count" 
| ») 


joinGp :org. apache. spark. sql. DataFrame = [ name: string, max( age) :bigint,count( gender) :bigint | 


scala > joinCp. show 


| | | + 


| name | max(age) | count( gender) | 
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+ + 
Personnel Dept | 30 | 2| 
Development Dept | 33 | 2| 
Testing Department | 26 | 2 | O) 
t + 下 


在 上 述 示例 中 ，joinP 是 关联 操作 示例 中 people 与 mDept 进行 join 的 结果 ， 对 joinP 对 象 
调用 其 groupBy 方法 ， 根 据 dept 的 “name” 列 进行 分 组 ， 并 在 分 组 后 对 指定 的 列 执行 指定 
的 聚合 操作 ， 这 里 对 “age” 列 求 最 大 值 ， 对 “count” 列 进行 计数 。joinGP 是 joinP 根据 部 
门 名 称 进 行 分 组 ， 然 后 计算 最 大 年 龄 和 性 别 计数 以 后 生成 的 DataFrame。 

16. 保存 为 表 

在 对 各 个 DataFrame 实例 进行 操作 后 ， 获 取 了 目标 信息 ， 如 果 后 续 需 要 这 些 信息 的 话 ， 
就 必须 执行 持久 化 操作 ， 即 将 文件 保存 到 存储 系统 或 表 中 。 

下 面 给 出 几 种 持久 化 的 示例 。 

1) 首先 ， 将 实例 持久 化 到 表 中 。 


scala > people. saveAsTable( " peopletable" ) 


scala > val rnpeople = people. withColumnRenamed( "job number" , "jobld" ) 
rnpeople: org. apache. spark. sql. DataFrame = | age: bigint, depId: bigint, gender: string, jobld : string, 


name :string, salary : bigint | 


scala > rnpeople. saveAsTable( " rnpeopletable" ) 


DataFrame 相关 的 Save 操作 还 有 registerTempTable。 


了 在 Spark 2. 0. 又 版 本 中 ，DataFrame 类 下 没有 saveAsTable 方法 ， 该 方法 被 放 在 DataFrameWriter 类 下 。 


2) 保存 为 JSON 文件 。 


scala > people. save( " hdfs:/library/ SparkSQL/ Data/ peoplesave. json" ,"json" ) 


这 里 使 用 save 方法 ,在 方法 中 指定 数据 源 格式 为 “json”， 可 以 将 DataFrame 实例 持久 
化 到 指定 的 路 径 上 。 通 过 HadoopWeb Interface 界面 可 以 查看 到 JSON 文件 。 
3) 保存 为 parquet 文件 。 


scala > people. save( " library/ SparkSQL/ Data/ hsqlDF. parquet" ," parquet" ) 


这 里 同样 使 用 save 方法 ， 在 方法 中 指定 数据 源 格式 为 “parquet”， 可 以 将 DataFrame 实 
例 持久 化 到 指定 的 路 径 上 。 
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通过 RDD 来 构建 DataFrame 


DataFrame 可 以 从 结构 化 文件 、Hive 表 、 外 部 数据 库 及 RDD 加 载 构建 得 到 。 具 体 的 结 
构 化 文件 、Hive 表 、 外 部 数据 库 的 相关 加 载 可 以 参考 其 他 章节 ， 这 里 主要 介绍 如 何 通过 
RDD 来 构建 DataFrame 。 

Spark SQL 支持 两 种 方式 将 存在 的 RDD 转化 为 DataFrame。 

第 一 种 : 使 用 反射 来 推断 包含 特定 对 象 类 型 的 RDD 的 模式 (Schema) 。 适 用 对 已 知 数 
据 结 构 的 RDD 转换 ， 基 于 反射 的 方式 ， 代 码 比 较 简 洁 。 

第 二 种 : 是 通过 一 个 编程 接口 来 实现 的 ， 这 个 接口 允许 构造 一 个 模式 ， 然 后 在 存在 的 
RDD 上 使 用 它 。 虽然 这 种 方法 代码 较为 元 长 ， 但 是 它 允 许 在 运行 期 间 不 知道 列 及 列 类 型 的 
情况 下 构造 DataFrame。 

下 面 对 这 两 种 方式 做 进一步 解释 。 

1. 利用 反射 推断 模式 

Spark SQL 能 够 将 含 Row 对 象 的 RDD 转换 成 DataFrame， 并 推断 数据 类 型 。 通 过 将 一 个 
键 值 对 (key/value〉 列表 作为 kwargs 传 给 Row 类 来 构造 Rows。key 定义 了 表 的 列 名 ， 类 型 
通过 第 一 列 数 据 来 推断 (所 以 这 里 RDD 的 第 一 列 数据 不 能 有 缺失 ) 。 未 来 版 本 中 将 会 通过 
看 更 多 数据 来 推断 数据 类 型 ， 就 像 现在 对 JSON 文件 的 处 理 一 样 。 

2. 编程 指定 模式 
通过 编程 指定 模式 需要 3 步 : 

1) 从 原来 的 RDD 创建 一 个 元 组 或 列表 的 RDD。 

2) 用 StructType 创建 一 个 和 步骤 1) 中 创建 的 RDD 中 元 组 或 列表 的 结构 相 匹 配 的 
模式 。 

3) 通过 SQLContext 提供 的 createDataFrame 方法 将 模式 应 用 到 RDD 上 。 

动态 构造 有 时 候 有 些 麻 烦 ， 但 是 Spark 已 经 提供 了 一 个 API， 就 是 DataSet，DataSet 可 以 
基于 RDD，RDD 里 面 有 类 型 ， 这 样 就 可 以 实现 RDD 与 DataFrame 的 转换 。 

RDD + DataFrame + DataSet 最 终 会 形成 三 足 易 立 的 局 面 。 从 Spark 2. 0 开始 ， 会 大 量 使 用 
DataSet， 因 为 DataSet 上 可 以 直接 查询 ， 操作 起 来 也 会 非常 直观 方便 。DataSet 的 底层 是 钨 
丝 计划 ， 提 供 了 更 优 的 性 能 改进 ，DataSet 的 目标 是 要 所 有 的 子 框架 都 用 DataSet 来 进行 
计算 。 

接 下 来 示范 如 何 通过 编程 接口 来 实现 RDD 与 DataFrame 的 转换 。 

1) 首先 准备 数据 

准备 的 数据 文件 如 下 ， 是 名 为 persons. txt 的 文本 文件 。 

1001 , 张 三 ,18 

1002, 李 四,19 

1098 , 王 五 ,28 

1099 , 赵 六 ,20 
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数据 格式 如 下 : 

。 第 一 列 为 ID。 

。 第 二 列 是 姓名 。 

。 第 三 列 是 年 龄 。 > 
2) 使 用 Java 实践 RDD 与 DataFrame 的 转换 。 


public class RDD2DataFrameByProgrammatically | 
public static void main( String[ | args) | 
SparkConf conf = new SparkConf( ). setMaster( " local" ) 

. setAppName( " RDD2 DataFrameByProgrammatically" ) ; 
JavaSparkContext sc = new JavaSparkContext( conf) ; 
SQLContext sqlContext = new SQLContext( sc ) ; 

JavaRDD < String > lines = sc. textFile( " E://persons. txt" ) ; 


/xs# * 第 一 步 :在 RDD 的 基础 上 创建 类 型 为 Row 的 RDD */ 
JavaRDD < Row > personsRDD = lines. map(new Function < String,Row>() | 
@ Override 
public Row call( String line) throws Exception | 
String[ ] splited = line. split("," ); 
return 
RowFactory. create( Integer. valueOf( splited[ 0 ] ) , splited[ 1 ] , Integer. valueOf( splited[ 2 | ) ) ; 
| 
| ) ; 


]/## 第 二 步 : 动 态 构造 DataFrame 的 元 数据 ,一 般 而 言 ,有 多 少 列 及 每 列 的 具体 类 型 可 能 
来 自 于 JSON 文件 ,也 可 能 来 自 于 DB */ 


List < StructField > structFields = new ArrayList < StructField > ( ) ; 


structFields. add( DataTypes. createStructField( "id" ,DataTypes. IntegerType ,true) ) ; 
structFields. add( DataTypes. createStructField(" name" ,DataTypes. StringType ,tue) ) ; 
structFields. add( DataTypes. createStructField( "age" ,DataTypes. IntegerType ,true) ) ; 


// 构 建 SeuctType ,用 于 最 后 DataFrame 元 数据 的 描述 
StructTypestructType = DataTypes. createStructType( structFields ) ; 


/*#** 第 三 步 : 基 于 MetaData 及 RDD < Row > 来 构造 DataFrame */ 
DataFramepersonsDF = sqlContext. createDataFrame( personsRDD ,structType ) ; 


/** 第 四 步 ; 注 册 成 为 临时 表 以 供 后 续 的 SQL 查询 操作 * / 


personsDF. registerTempTable( " persons" ); 


/xx 第 五 步 ,进行 数据 的 多 维度 分 析 * / 


DataFrame result = sqlContext. sql( "select * from persons where age >20" ) ; 
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/#* 第 六 步 : 对 结果 进行 处 理 , 包 括 由 DataFrame 转换 成 为 RDD < Row > ,以 及 结果 持久 化 #/ 


List < Row > listRow = result. javaRDD( ). collect( ); 


for( Row row:listRow) | 
System. out. println( row ) ; 


| 


在 Spark SQL 中 ， 建 议 使 用 HiveContext 来 替代 SQLContext， 它 比 SQLContext 功能 更 强 


以 上 Java 代码 实现 了 RDD 与 DataFrame 的 转换 ， 非 常 简单 ， 主 要 涉及 以 下 步骤 : 
。 读 取 文本 文件 ， 遍 历 全 部 行 ， 创 建 RDD < Row > 。 

e 构造 DataFrame 的 元 数据 (MetaData ) 。 

e 基于 MetaData、RDD < Row > 来 构造 DataFrame。 


。 注册 


成 为 临时 表 。 


e 使 用 上 面 的 临时 表 ， 进 行 数据 查询 。 


e 对 结果 进行 处 理 : DataFrame 转换 成 为 RDD < Row > 或 者 持久 化 。 
3 ) 使 用 Scala 实践 RDD 与 DataFrame 的 转换 。 


import org. apache. spark. | SparkContext ,SparkConf| 


import org. apache. spark. sql. SQLContext 


class RDD2 DataFrameByProgrammaticallyScala | 


def main( args: Array| String | ) : Unit = | 


val conf = newSparkConf( ) 
conf setAppName(" RDD2DataFrameByProgrammaticallyScala" ) // 设 置 应 用 程序 的 名 称 


conf setMaster( " local" ) 


val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc) 


val people = sc. textFile( " E://persons. txt" ) 


val schemaString = " name age" 


import org. apache. spark. sql. Row; 


import org. apache. spark. sql. types. | StructType, StructField ,StringType| ; 


val schema = 


StructType( schemaString. split(" "). map(fieldName => StructField( fieldName, StringType ,true ) ) ) 


val rowRDD = people. map(_. split(",")).map(p=> Row(p(0),p(1). trim)) 


EE 光 夸 英 计 DataFrame 原 理 与 常用 操作 


val peopleDataFrame = sqlContext. createDataFrame( rowRDD , schema) 
peopleDataFrame. registerTempTable( " people" ) 
val results = sqlContext. sql( " select name from people" ) 
results. map(t=>"Name:" +t(0)). collect( ). foreach( println) O) 
| 


以 上 通过 Scala 代码 实现 了 上 面 Java 代码 一 样 的 效果 ， 具 体 实 现 步 又 也 基本 一 致 。 


加 
缓存 表 ( 列 式 存储 ) 


Spark SQL 可 以 通过 调用 sqlContext. cacheTable(“tableName”) 方 法 来 将 一 张 表 绥 存 到 内 
存 中 ， 极 大 地 提高 查询 效率 。 然 后 ，Spark 将 会 仅仅 浏览 需要 的 列 并 且 自 动 地 压缩 数据 ， 以 
减少 内 存 的 使 用 及 垃圾 回收 的 压力 。 可 以 通过 调用 uncacheTable(“tableName”) 方 法 在 内 存 
中 删除 表 。 

注意 : 如 果 调 用 schemaRDD. cache( ) 而 不 是 sqlContext. cacheTable(... ) ， 将 不 会 用 列 式 
格式 来 缓存 〔( 即 列 式 存储 ) ， 强 烈 推 荐 调用 sqlContext cacheTable(... )。 

可 以 在 SQLContext 上 使 用 setConf 方法 或 者 在 用 SQL 时 运行 “SET key = value” 命 令 来 
配置 内 存 缓存 ， 部 分 配置 信息 如 表 2 -1 所 示 。 


表 2 -1 用 “SET key =value” 命 令 的 部 分 属性 配置 


属性 名 称 默认 值 含 义 
ns : J 丹 汪 基干 尖 坦 巡 
Spark. sql. inMemoryColummarStorage. compressed true BE 自 动 0 基于 数据 统计 


Spark. sql. inMemoryColummarStorage. BatchSiz 10000 内 的 批 数据 大 小 。 更 大 的 批 数据 可 以 提高 


昌 率 以 压缩 效率 ， 但 有 OOM 的 风险 


下 面 是 对 表 进 行 缓存 的 示例 。 


//// 从 HDFS 读 取 people. json 
scala > val people = sqlContext. jsonFile( " hdfs:/library/ SparkSQL/ Data/ people. json" ) 
people: org. apache. spark. sql. DataFrame = |[ age: bigint, depld: bigint, gender: string, job number: 


string, name : string , salary : bigint | 


//// 注 册 临 时 表 
scala > people. registerTempTable( " people" ) 


//// 访 问 该 临时 表 
scala > val results = sqlContext. sql(" SELECT name FROM people" ) 


results: org. apache. spark. sql. DataFrame = [ name: string | 


//// 显 示 绪 果 
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scala > results. show 


Michael | 
Andy | 
Justin | 


John | 


//// 把 people 这 张 临时 表 缓 存 到 内 存 中 
scala > sqlContext. cacheTable( " people" ) 


//// 再 次 执行 show ,执行 效率 比 第 一 次 高 很 多 


scala > results. show 


Michael | 
Andy | 


Justin | 


//// 调 用 uncacheTable 释放 缓存 ,可 以 查看 Web Interface 界面 ,内存 会 马上 释放 
scala > sqlContext. uncacheTable( " people" ) 


CacheTable 操作 是 lazy 级 别 的 ， 在 调用 该 方法 后 不 会 立即 执行 。 


DataFrame API 应 用 示例 


DataFrame 提供 了 一 套 丰 富 的 API， 让 Spark 变 得 更 加 平易 近 人 ， 使 得 大 数据 分 析 的 开发 
越 来 越 容易 。DataFrame API 将 关系 型 的 处 理 与 过 程 型 处 理 结合 起 来 ， 可 以 对 外 部 数据 源 
( Hive 、JSON 等 ) 和 Spark 内 建 的 分 布 式 集合 (RDD) 进行 关系 型 操作 。 


站 全 请 也 DataFrame 原 理 与 常用 操作 


DataFrame 能 处 理 的 外 部 数据 源 ， 除 了 内 置 的 Hive、JSON、Parquet、JDBC 以 外 ， 还 包 
括 CSV、Avro、HBase 等 多 种 数据 源 ，Spark SQL 多 元 一 体 的 结构 化 数据 处 理 能 力 正在 逐渐 


释放 。DataFrame 数据 采用 压缩 的 列 式 存 储 ， 对 DataFrame 的 操作 采用 Catalyst 一 一 一 种 关系 
操作 优化 器 (也 称 为 查询 优化 器 ) ， 因 此 效率 更 高 。 > 
本 节 读 取 电 影 票房 收入 的 数据 文件 ， 生 成 名 为 fm 的 DataFrame， 对 读 DataFrame 应 用 


各 种 Spark 算 子 进行 计算 。 

首先 准备 数据 。 模 拟 生成 电影 票房 收入 的 数据 文件 外 m. json 、newFilm. json， 从 本 地 上 
传 到 Hdfs 文件 系统 中 ， 电 影 票 房 收 入 文件 的 格式 包括 6 列 : 票房 收入 、 制 片 地 区 、 影 片 ID、 
语言 代码 、 影 片 名 、 上 了 映 年 份 。 电 影 票房 收入 的 数据 文件 内 容 如 下 


| " boxoffice" .33.9," country" :" CN","id":"1","languageid" :1," name":" Mermaid" ," year": 
2016 } 

| " boxoffice" :24. 38," country" :" CN","id":"2"," languageid" :1," name":" MonsterHunt" ," 
year" :2015 | 

| "boxoffice" :13. 82 ," country" :" USA","id" :"3"," languageid" :2," name" :" Avatar" ," year": 
2010 } 

| "boxoffice" :15.3,"country" :"USA" ,"id" :"4","languageid" :2,"name" :" Zootropolis" ," year" : 
2016 } 

| "boxoffice" :5.33,"country" :" Uk" ,"id" :"5","languageid" :2," name" :"Spectre" ,"year" :2015 | 
| "boxoffice" :3. 82," country" :" UK","id":"6"," languageid" :2," name":" Sherlock" ," year" : 
2016 } 

| "boxoffice" :1. 54," country" :" TH","id" :"7","languageid" :3," name" :" FirstLove" ," year": 


2012} 


模拟 生成 语言 代码 文件 language. json， 同 样 从 本 地 上 传 到 Hdfs 文件 系统 中 ,语言 代码 
文件 的 格式 包括 2 列 : 语言 名 称 、 语 言 代 码 。 语 言 代码 文件 的 数据 内 容 如 下 : 


和 


| "language" :"chinese" ,"languageid" :1 | 


人 


| "language" :"english" ,"languageid" :2 | 


Lg 


| "language" :"other" ,"languageid" :3 | 


接 下 来 在 Spark - Shell 中 使 用 sqlContext jsonFile 方法 分 别 加 载 电影 票房 收入 文件 ， 语 计 
代码 文件 。 


scala > val newfilm = sqlContext. jsonFile( " hdfs:/library/ SparkSQL/ Data/ newFilm. json" ) 
newfilm : org. apache. spark. sql. DataFrame = | boxoffice: double, country: string, id: string, languageid : 


bigint, name : string , year : bigint | 


//// 语 言 代 码 数据 。 数 据 内 容 格 式 有 两 列 : 语 言 名 称 和 语言 代码 
scala > val language = sqlContext. jsonFile( " hdfs:/library/ Spark SQL/ Data/ language. json" ) 


language :org. apache. spark. sql. DataFrame = [ language :string, languageid : bigint | 


//// 把 flm 对象 赋值 给 df ,fm 是 DataFrame 类 型 ,赋值 变量 
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scala > val df = film 


df ;org. apache. spark. sql. DataFrame = [ boxoffice: double, country: string, id : string, languageid : bigint, 


name :string, year :bigint | 


//// 把 newfilm 对 象 赋值 给 newDf,newDf 是 DataFrame 类 型 ,赋值 变量 newDf 


scala > val newDf = newfilm 


//// 创 建 一 个 sqlContext 


scala > val sqlContext = new org. apache. spark. sql. SQLContext( sc) 


接 下 来 对 常用 的 DataFrame API 进行 示例 解析 ， 相 应 的 操作 数据 为 电影 票房 收入 的 数据 
文件 flm. json 和 newFilm. json 。 

1. collect 与 collectAsList 

1) 定义 。 


def collect( ) :Array| Row| 
def collectAsList( ) :List[ Row| 


2) 功能 描述 。 
e collect 返回 一 个 数组 ， 包 含 DataFrame 中 包含 的 全 部 数据 记录 。 


e@ collectAsList 返回 一 个 Java List， 包 含 DataFrame 中 包含 的 全 部 数据 记录 。 
3) 示例 。 


scala > val df = film 


////show 出 DataFrame 中 的 数据 ,以 表格 形式 呈现 其 内 容 
scala > df. show 


十 十 十 十 + 
boxoffice | country | id | languageid | name | year | 
十 十 十 十 十 
33.9 | CN |001 |1| Mermaid | 2016 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | 
13. 82 | USA |003 |2 | Avatar | 2010 | 
15.3 | USA | 004 |2 | Zootropolis | 2016 | 
5.33 | Uk |005 |2 | Spectre | 2015 | 
3.82 | UK |006 |2 | Sherlock | 2016 | 
1.54 |TH|007|3| First Love |2012 | 
a + 


//// collect 方 法 返回 一 个 数组 ,包含 DataFrame 中 的 全 部 Rows 
scala > df. collect 


光合: 也 DataFrame 原 理 与 常用 操作 


res 18 : Array[ org. apache. spark. sql. Row | = Array([33.9,CN,001 ,1,Mermaid,2016 ] ,[ 24. 38 , CN， 
002 ,1 ,Monster Hunt,2015 ] ,[ 13. 82 ,USA ,003 ,2 , Avatar,2010 | ,[ 15.3, USA ,004 ,2 , Zootropolis ， 
2016 ] , [5. 33 ,Uk,005 ,2 ,Spectre,2015 ] ,[3. 82 ,UK ,006 ,2 ,Sherlock ,2016 | , [ 1. 54, TH ,007,3, 


First Love ,2012 | ) © 


////collectAsList 方法 返回 一 个 Java List 

scala > df. collectAsList 

res19 .java. util List[ org. apache. spark. sql. Row ] = [ [ 33.9,CN,001,1, Mermaid,2016 | ,| 24. 38 ， 
CN ,002 ,1, Monster Hunt, 2015 ] , [ 13. 82, USA, 003,2, Avatar, 2010], [ 15.3, USA, 004,2, 
Zootropolis ,2016 ] , [ 5. 33, Uk, 005, 2, Spectre, 2015 ] , [ 3. 82, UK, 006, 2, Sherlock, 2016 |]， 
[1.54,TH,007 ,3 ,First Love,2012]] 


4) 解析 。 

上 述 示例 中 首先 加 载 flm， 然 后 以 表格 的 形式 呈现 其 内 容 。 

两 个 collect 型 的 方法 都 可 以 获取 df 的 全 部 数据 记录 ， 只 是 返回 的 类 型 不 同 。 调 用 col- 
lect 方法 ， 返 回 的 是 数组 ， 数 组 元 素 的 类 型 为 org. apache. spark. sql. Row; 调用 collectASList 
返回 类 型 java. util. List。 

2. count 

1) 定义 。 


def count( ) :long 


2) 功能 描述 。 
返回 DataFrame 的 数据 记录 的 条 数 。 
3) 示例 。 


scala > df. count 
16/04/27 14:33 :45 INFOmapred. FileInputFormat :Total input paths to process :1 
res20:Long =7 


3. describe 
1) 定义 。 


def describe( cols: String * ) : DataFrame 


2) 功能 描述 。 

概要 与 描述 性 统计 (Summary and Descriptive Statistics)， 包 含 计数 、 平 均值 、 标 准 差 、 
最 大 值 和 最 小 值 运算 。 

3) 示例 。 


scala > df. describe(" name" ). show 
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十 让 
count | | 
mean | null | 
stddev | null | 
min | Avatar | 
max | Zootropolis | 


十 十 十 
4. First 
1) 定义 。 


def first( ) :Row 


2) 功能 描述 。 
返回 DataFrame 的 第 一 行 ， 等 同 于 head( ) 方 法 。 
3) 示例 。 


scala > df. first 
res22 :org. apache. spark. sql. Row = [33. 9,CN ,001 ,1 ,Mermaid ,2016 |] 


S$. head 
1) 定义 。 


def head( ) :Row 


2) 功能 描述 。 

不 带 参 数 的 head 方法 ， 返回 DataFrame 的 第 一 条 数据 记录 ; 指定 参数 n 时 ， 则 返回 前 n 
条 数据 记录 。 

3) 示例 。 


scala > df. head 
res23 :org. apache. spark. sql. Row = [33. 9,CN ,001 ,1 ,Mermaid ,2016 | 


scala > df head(3) 
res24 :Array[ org. apache. spark. sql Row | = Array ([ 33.9,CN,001,1,Mermaid,2016 ] ,[24.38,CN， 
002 ,1 ,Monster Hunt,2015 ] ,| 13. 82 ,USA ,003 ,2, Avatar ,2010 ] ) 


6. show 
1) 定义 。 


def show( ) : Unit 
def show( numRows:Int) :Unit 


EE 光 年 英 计 DataFrame 原 理 与 常用 操作 


2) 功能 描述 。 
e 不 带 参 数 时 ， 用 表格 的 形式 显示 DataFrame 的 前 20 行 记录 。 
e 指定 参数 numRows 时 ， 用 表格 的 形式 显示 DataFrame 指定 的 行 数 记录 。 


3) 示例 。 > 


scala > df. show(3) 


十 + 十 十 + 
boxoffice | country | id | languageid | name | year | 
+ 十 t 十 + 
33.9 | CN |001 |1| Mermaid | 2016 | 
24. 38 | CN | 002 | 1 | Monster Hunt | 2015 | 
13. 82 | USA |003 |2 | Avatar | 2010 | 
水 站 站 本 中 


only showing top 3 rows 
7. take 
1) 定义 。 
def take( n:Int) :Array[ Row| 


2) 功能 描述 。 
类 似 head 方法 ， 返 回 DataFrame 中 指定 的 前 n 行 的 值 。 
3) 示例 。 


scala > df. take(3) 
res26 : Array[ org. apache. spark. sql. Row | = Array ([ 33.9,CN,001,1,Mermaid,2016 ] ,[24.38, CN， 
002,1,Monster Hunt,2015 ] ,| 13. 82 ,USA ,003 ,2, Avatar ,2010 ] ) 


scala > df. takeAsList(4) 

16/04/27 14:37:37 INFOmapred. FileInputFormat :Total input paths to process :1 

res27 :java. util List[ org. apache. spark. sql. Row ] = [ [ 33.9,CN,001,1, Mermaid,2016 | ,| 24. 38 ， 
CN ,002 ,1, Monster Hunt, 2015 ] , [ 13. 82, USA, 003,2, Avatar, 2010 ] , [ 15.3, USA, 004,2, 
Zootropolis ,2016 | ] 


8. cache 
1) 定义 。 
def cache( ) :DataFrame. this. type 


2) 功能 描述 。 
将 DataFrame 缓存 到 内 存 中 。 
3) 示例 。 


scala > df. cache 
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res28 : org. apache. spark. sql. DataFrame = | boxoffice: double, country: string, id: string, languageid : 


bigint, name :string,year:bigint] 


9. columns 
1) 定义 。 


def columns :Array[ String | 


2) 功能 描述 。 
以 数组 形式 返回 DataFrame 的 所 有 列 名 。 
3) 示例 。 


scala > df. columns 


res29 : Array| String | = Array(boxoffice,country ,id,languageid ,name , year ) 


10. dtypes 
1) 定义 。 


def dtypes: Array[ (String,Stirng) ] 


2) 功能 描述 。 
以 数组 形式 返回 所 有 列 名 及 其 对 应 数据 类 型 。 
3) 示例 。 


scala > df. dtypes 
res30: Array| ( String, String ) ] = Array ( ( boxoffice, DoubleType ) , ( country, StringType ) , (id, String- 
Type) , (languageid, LongType) , (name, StringType) , (year, LongType) ) 


11. explain 
1) 定义 。 


def explain( extended: Boolean) :Unit 


2) 功能 描述 。 

这 个 方法 用 于 调试 目的 。 

e 不 带 参 数 时 ， 仅 将 DataFrame 的 物理 计划 打印 到 Web 控制 台 上 。 

e 当 指 定 参数 extended 为 true 时 ， 打 印 所 有 计划 到 Web 控制 台 上 ， 包 括 解析 逻辑 计划 、 
分 析 逻 辑 计 划 、 优 化 的 逻辑 计划 和 物理 计划 。 

3) 示例 。 

e 不 带 参 数 时 ， 仅 将 物理 计划 打印 到 Web 控制 台 上 。 


scala > df. explain 


== Physical Plan == 


EE 光 年 英 放 DataFrame 原 理 与 常用 操作 


InMemoryColumnarTableScan | boxoffice ,country#1 ,id 起 ,languageid#3L, name#4 , year#5L | ,InMem- 
oryRelation [ boxoffice#0, country#1 , id#2 , languageid#3L, name#4, year#5L | , true, 10000, Stor- 
ageLevel( true ,true , false, true, 1 ) ,Scan JSONRelation | boxoffice#0, country#1 ,id#2 , languageid# 
3L,name#M ,year#5L | InputPaths:hdfs://Master:9000/library/ SparkSQL/ Data/film. json ,None O) 


e 指定 参数 extended 为 true 时 ， 打 印 所 有 计划 到 Web 控制 台 上 。 


scala > df. explain( true) 
== Parsed Logical Plan == 


Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L,name#4 ,year#WML | JSONRelation 


== Analyzed Logical Plan == 
boxoffice :double ,country : string ,id : string , languageid : bigint, name : string, year : bigint 


Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L,name#4 ,year 的 工 ] JSONRelation 


== Optimized Logical Plan == 

InMemoryRelation [ boxoffice#0 , country#1 ,id#2, languageid #3L, name#4, year#5L | ,true, 10000, Stor- 
ageLevel( true ,true , false, true, 1 ) ,Scan JSONRelation[ boxoffice#0 ,country#1 , id#2, languageid# 
3L,name#4 ,year#5L | InputPaths:hdfs://Master:9000/library/ Spark SQL/ Data/film. json ,None 


== Physical Plan == 

InMemoryColumnarTableScan | boxoffice#0 ,country#1 ,id 可 , languageid#3L, name#4 , year#5L | ,InMem- 
oryRelation [ boxoffice#0, country#1 , id#2 ,languageid#3L, name#4 ,year#5L | , true, 10000 , Stor- 
ageLevel( true ,true , false, true, 1 ) ,Scan JSONRelation | boxoffice#0 ,country#1 , id#2, languageid# 
3L,name#4 ,year#5L | InputPaths:hdfs://Master:9000/library/ Spark SQL/ Data/film. json ,None 


12. printSchema 
1) 定义 。 


def printSchema( ) :Unit 


2) 功能 描述 。 
以 树 形 结构 将 DataFrame 的 Schema 信息 打印 到 Web 控制 台 上 。 
3) 示例 。 


scala > df. printSchema 

root 

—— boxoffice: double (nullable = true) 
—— country:string (nullable = true) 
—— id:string (nullable = true) 

—— languageid :long (nullable = true) 


—— name:string (nullable =true) 


—— year:long (nullable = true) 
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13. registerTempTable 
1) 定义 。 


def registerTempTable( tableName: String) : Unit 


2) 功能 描述 。 
将 DataFrame 注册 为 指定 名 字 的 临时 表 。 
3) 示例 。 


scala > df registerTempTable( "film" ) 


ZL/ 注册 成 临时 表 之 后 ,可 以 使 用 SQLContext 的 sql 方法 查询 该 临时 表 
scala > val oldfilm = sqlContext. sql(" SELECT name FROM film WHERE year <2013") 


oldfilm :org. apache. spark. sql. DataFrame = [ name: string | 


scala > oldfilm. show 
16/04/27 14:43:10 INFOmapred. FileInputFormat :Total input paths to process :1 


Es 时 


| Avatar | 


| First Love | 


将 DataFrame 注册 成 临时 表 之 后 ， 可 以 使 用 SQLContext 的 sql 方法 ， 对 其 执行 SQL 语句 。 
14. schema 
1) 定义 。 

def schema: StructType 


2) 功能 描述 。 
返回 DataFrame 的 Schema 信息 ， 对 应 类 型 为 StrutType。 
3) 示例 。 


scala > df. schema 


res36 :org. apache. spark. sql types. StructType = StructType ( StructField ( boxoffice, DoubleType ,true ) ， 
StructField( country, StringType,true) , StructField (id, StringType, true ) , StructField (languageid ， 
LongType,true) , StructField( name, StringType, true ) ,StructField(year,LongType,true) ) 


15. toDF 
1) 定义 。 


def toDF( ) :DataFrame 


站 全 请 也 DataFrame 原 理 与 常用 操作 


def toDF(colNames:String * ) :DataFrame 


2) 功能 描述 。 

e 不 带 参 数 的 toDF 返回 它 本 身 。 > 
e 带 字 符 串 数组 的 参数 时 ， 返 回 新 的 DataFrame ， 该 DataFrame 重 命 名 了 各 列 名 。 

3) 示例 。 


scala > val newToDf = df. toDF 


newToDf:org. apache. spark. sql. DataFrame = [ boxoffice: double, country: string, id: string, languageid : 


bigint,name:string,year:bigint | 


scala > val newToDf{2 = df toDF( "tl" ,"t2","13" testl" ,"test2" ,"test3" ) 
newToDf2 : org. apache. spark. sql. DataFrame = [ tl: double, {2. string, 13: string, testl : bigint, test2. 


string , test3 :bigint | 


16. persist 
1) 定义 。 


def persist( newLevel: StorageLevel ) : DataFrame. this. type 
def persist( ) :DataFrame. this. type 

def unpersist( ) : DataFrame. this. type 

def unpersist( blocking: Boolean) : DataFrame. this. type 


2) 功能 描述 。 

以 给 定 的 存储 等 级 将 DataFrame 持久 化 到 内 存 或 者 磁盘 中 。unpersist 则 是 将 DataFrame 

标记 为 非 持久 化 的 。 

e persist(newLevel :StorageLevel) : 设置 RDD 的 存储 级 别 ， 在 其 首次 进行 计算 以 后 
化 值 。 如 RDD 没 设置 存储 级 别 ， 此 方法 用 于 设置 新 的 存储 级 别 。 本 地 检查 点 将 会 提 
示 异 常 。 

e persist( ) : 以 默认 的 存储 级 别 (MEMORY_ONLY) 持久 化 RDD。 

e unpersist( ) : 设置 RDD 为 非 持久 化 ， 其 中 unpersist 的 入 参 blocking 默认 设置 为 true， 
即 阻塞 直到 所 有 块 被 删除 。 

e unpersist( blocking:Boolean) : 设置 RDD 为 非 持 久 化 ， 清 除 RDD 在 内 存 和 磁盘 中 的 所 
有 块 。 

3) 示例 。 


scala > df. persist( org. apache. spark. storage. StorageLevel MEMORY_ONLY) 
16/04/27 14:45:46 WARN execution. CacheManager: Asked to cache already cached data. 
res37 ; org. apache. spark. sql. DataFrame = [ boxoffice: double, country: string, id: string, languageid: 


bigint, name : string , year : bigint | 


scala > df. unpersist 
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res38 : org. apache. spark. sql. DataFrame = [ boxoffice: double, country: string, id: string, languageid : 


bigint, name: string , year : bigint | 


scala > df. unpersist( true ) 
res39 ; org. apache. spark. sql. DataFrame = | boxoffice: double, country: string, id: string, languageid: 


bigint, name: string , year : bigint | 


17. agg 
1) 定义 。 


def agg( expr: Column ,exprs: Column * ) :DataFrame 

def agg( exprs:java. util. Map[ String, String | ) :DataFrame 

def agg( exprs: Mapl String, String | ) : DataFrame 

def agg( aggExpr: (String, String) ,aggExprs: (String, String) * ) :DataFrame 


2) 功能 描述 。 

88 是 Spark1. 5. x 开始 提供 的 一 类 内 置 函 数 。 agg 这 一 系列 的 方法 ， 为 DataFrame 提供 数 
据 列 不 需要 经 过 group 就 可 以 执行 统计 操作 。 

3) 示例 。 

下 面 的 示例 是 统计 year 的 最 大 值 和 boxoffice 的 平均 值 。 


//// 显 示 前 面 准备 的 电影 票房 收入 数据 


scala > film. show 


十 十 十 十 十 
boxoffice | country | id | languageid | name | year | 
+ + 十 二 
33.9 | CN |001 11| Mermaid | 2016 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | 
13. 82 | USA |003 |2 | Avatar | 2010 | 
15.3 | USA |004 | 1 | Zootropolis | 2016 | 
5.33 | Uk |005 |2 | Spectre | 2015 | 
1.54 | UK |006 |2| Sherlock | 2016 | 
1.54 |TH|007|3| First Love |2012 | 
三 + 十 十 + + 


//// 统 计 最 大 年 份 平 均 票 房 收入 
scala > df agg( max($ "year" ) ,avg($ "boxoffice" ) ) 
res3 :org. apache. spark. sql. DataFrame = [ max( year) :bigint ,avg( boxoffice ) : double | 


scala > df. agg( max($ "year" ) ,avg($ "boxoffice" ) ). show 


t 十 十 


| max(year) | avg( boxoffice) | 
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十 十 
2016 | 13. 687142857142856 | g 


十 十 


© 


//// 直接 使 用 agg 方法 和 先 用 groupBy 分 组 再 调用 agg 方法 的 结果 是 一 样 的 
scala > df. groupBy( ). agg( max($ "year" ) ,avg($ "boxoffice" ) ). show 


+ + 


max( year) | avg( boxoffice) | 


十 十 
2016 | 13. 687142857142856 | 


十 十 


下 面 是 使 用 Map 作为 参数 的 示例 ， 分 别 统计 year 的 最 小 值 和 boxoffice 的 平均 值 。 


scala > df agg(Map("year" -> "min'" ," boxoffice" -> "mean" ) ) 


res6 :org. apache. spark. sql. DataFrame = [ min( year) :bigint,avg(boxoffice) : double | 


scala > df agg( Map( "year"” —>"min"," boxoffice"” —>"mean" ) ). show 


十 十 


min( year) | avg( boxoffice ) | 


十 十 
2010 | 13. 687142857142856 | 


十 十 


上 面 的 代码 与 下 面 使 用 二 元 数组 作为 参数 的 示例 相同 。 


scala > df agg( ("year” —>"min"),("boxoffice” —>"mean")) 


res8 : org. apache. spark. sql. DataFrame = [ min( year) :bigint,avg( boxoffice) : double | 


scala > df agg( ("year” —>"min"),("boxoffice” —>"mean" ) ). show 


十 十 


min( year) | avg( boxoffice ) | 


十 十 
2010 | 13. 687142857142856 | 


十 十 


18. apply 
1) 定义 。 


def apply(colName:String) :Column 


2) 功能 描述 。 
根据 指定 列 名 返回 DataFrame 的 列 ， 其 类 型 为 Column。 
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3) 示例 。 


scala > df( "year" ) 


res10:org. apache. spark. sql. Column = year 


scala > df col( " year" ) 


resl2 :org. apache. spark. sql. Column = year 


19. as 
1) 定义 。 


def as( alias:Symbol) : DataFrame 


2) 功能 描述 。 

调用 as 方法 后 ， 使 用 别名 构建 DataFrame。 

3) 示例 。 

首先 ， 注 册 临 时 表 ， 然 后 修改 调试 日 志 的 级 别 ， 方便 查看 调试 信息 。 


/A/// 注 册 临 时 表 
scala > film. registerTempTable( "film" ) 


//// 修 改 调试 日 志 的 级 别 

scala > Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. DEBUG) 
为 了 分 析 这 个 方法 的 作用 ， 下 面 分 别 查 看 带 as 方法 和 不 带 as 方法 的 两 种 情况 。 
e 不 带 as 方法 时 的 调试 信息 : 


scala > val sss = sqlContext. sql( " select year,boxoffice from film" ). explain( true) 

16/04/26 19:46:06 INFO parse. ParseDriver: Parsing command : select year, boxoffice from film 
16/04/26 19:46:07 INFO parse. ParseDriver: Parse Completed 

16/04/26 19:46:07 DEBUG analysis. Analyzer $ ResolveReferences: Resolving year to year#5L 
16/04/26 19:46:07 DEBUG analysis. Analyzer $ ResolveReferences:Resolving boxoffice to boxoffice#0 
16/04/26 19.46:07 DEBUG hive. HiveContext $ $ anon $ 3. 

=== Result of Batch Resolution === 

! Project [ unresolvedalias( year) ,unresolvedalias( boxoffice) | Project [year#5L ,boxoffice#0 ] 

1 +— UnresolvedRelatiod film ,None +— Subquery film 

1 +— Relation 


[ boxoffice#0 ,country#1 ,id#2. ,languageid#3L ,name#M4 ,year 的 工 ] JSONRelation 


16/04/26 19:46:07 DEBUG analysis. Analyzer $ ResolveReferences : Resolving year to year#5L 
16/04/26 19:46:07 DEBUG analysis. Analyzer $ ResolveReferences :Resolving boxoffice to boxoffice#0 
16/04/26 19.46:07 DEBUG hive. HiveContext $ $ anon $ 3. 


=== Result of Batch Resolution === 
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! Project [ unresolvedalias( year) ,unresolvedalias( boxoffice) | Project [year#5L,boxoffice#0 ] 

! +— UnresolvedRelatiod film ,None +— Subquery film 

1 +— Relation 
[ boxoffice ,country#1 ,id#2. ,languageid#3L ,name#4 ,year 网 工 ] JSONRelation 


16/04/26 19:46:07 DEBUG optimizer. DefaultOptimizer : 
=== Result of Batch RemoveSubQueries === 
Project | year#5L, boxoffice#0 ] 
Project [ year#5L, boxoffice#0 ] 
! +— Subquery film 
+— Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L,name#M ,year#WML| JSONRelation 
! +— Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L, name#4 ,year#5L | JSONRelation 


== Parsed Logical Plan == 
' Project [ unresolvedalias( year) ,unresolvedalias( boxoffice) ] 


+—' UnresolvedRelation film ,None 


== Analyzed Logical Plan == 
year: bigint, boxoffice ; double 
Project | year#5L, boxoffice#0 ] 
+— Subquery film 
+— Relation| boxoffice#0 ,country#1] ,id#2 ,languageid#3L ,name#4 , year#5L | JSONRelation 


== Optimized Logical Plan == 
Project | year#5L, boxoffice#0 | 
+— Relation| boxoffice#0 ,country#1] ,id#2 ,languageid#3L, name#4 ,year#5L | JSONRelation 


== Physical Plan == 
ScanJSONRelation | year #5L, boxoffice #0 | InputPaths: hdfs://Master: 9000/library/ SparkSQL/ Data/ 
film. json 


sss: Unit=() 
e 带 as 方法 时 的 调试 信息 : 


scala > val sss = sqlContext. sql( " select year, boxoffice from film" ). as( "alise" ). explain( true) 
16/04/26 19:47:21 INFO parse. ParseDriver: Parsing command : select year, boxoffice from film 
16/04/26 19:47:21 INFO parse. ParseDriver: Parse Completed 

16/04/26 19:47:21 DEBUG analysis. Analyzer $ ResolveReferences: Resolving year to year#5L 
16/04/26 19:47:21 DEBUG analysis. Analyzer $ ResolveReferences:Resolving boxoffice to boxoffice#0 
16/04/26 19:47:21 DEBUG hive. HiveContext $ $ anon $ 3: 

=== Result of Batch Resolution === 

! Project [ unresolvedalias( year) ,unresolvedalias( boxoffice) | Project [year#5L ,boxoffice#0 ] 


! +— UnresolvedRelatiod film ,None +— Subquery film 
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1 +— Relation 


[ boxoffice#0 ,country#1 ,id 起 ,languageid 冯 站 ,name 到 ,year 的 工 ] JSONRelation 


16/04/26 19:47:21 DEBUG optimizer DefaultOptimizer: 
=== Result of Batch RemoveSubQueries === 
! Subquery alise 
Project [ year#5L, boxoffice#0 | 
! +— Project [year#5L,boxoffice#0 ] 
+— Relation| boxoffice#0,country#] ,id#2 ,languageid#3L,name#4 ,year 的 工 ] JSONRelation 
! +— Subquery film 


| +— Relation| boxoffice#0,country#] ,id#2 ,languageid#3L ,name#4 ,year#5L | JSONRelation 


== Parsed Logical Plan == 
Subquery alise 
+— Project [ year#5L ,boxoffice#0 ] 
+— Subquery film 
+— Relation| boxoffice#0 ,country#] ,id#2 ,languageid#3L,name#4 ,year#HL | JSONRelation 


== Analyzed Logical Plan == 
year: bigint, boxoffice : double 
Subquery alise 
+— Project [ year#5L ,boxoffice#0 ] 
+— Subquery film 
+— Relation| boxoffice#0 ,country#1] ,id#2 ,languageid#3L,name#4 ,year#WML| JSONRelation 


== Optimized Logical Plan == 
Project | year#5L, boxoffice#0 ] 
+— Relation| boxoffice#0 ,country#] ,id#2 ,languageid#3L ,name#4 ,year#5L | JSONRelation 


== Physical Plan == 
ScanJSONRelation| year#5L, boxoffice#0 ] InputPaths: hdfs://Master: 9000/library/ SparkSQL/ Data/ 
film. json 


sss: Unit =() 


4) 解析 。 


通 


过 上 面 两 种 情况 的 比较 可 以 看 出 ， 仅 在 解析 逻辑 计划 、 分 析 逻 辑 计 划 中 ,使 用 了 别名 


Subquery alise。 
20. distinct 
1) 定义 。 


def distinct( ) : DataFrame 


第 2 章 


2) 功能 描述 。 


DataFrame 原 理 与 常用 操作 


返回 对 DataFrame 的 数据 记录 去 重 后 的 DataFrame。 


3) 示例 。 


scala > df. select( " year" ). distinct. show 


4) 解析 。 


在 实例 中 ， 选 择 了 有 重复 数据 记录 的 “year” 列 ， 最 后 调用 distinct 方法 进行 去 重 。 


21. except 
1) 定义 。 


def except( other:DataFrame ) :DataFrame 


2) 功能 描述 。 


返回 DataFrame， 包 含 当 前 DataFrame 的 数据 记录 ， 同 时 这 些 Rows 不 在 男 一 个 Dat- 


aFrame 中 ， 相 当 于 两 个 DataFrame 做 减法 。 
3) 示例 。 


//// 以 表格 形式 查看 全 部 电影 的 票房 数据 


scala > df. show 


下 下 十 下 十 
boxoffice | country | id | languageid | name | year | 
十 十 十 + + 
33.9 | CN |001 |1| Mermaid | 2016 | 
24. 38 | CN |002 | 1 | Monster Hunt | 2015 | 
13. 82 | USA |003 |2 | Avatar | 2010 | 
15.3 | USA |004 |2 | Zootropolis | 2016 | 
5.33 | Uk |005 |2| Spectre | 2015 
3.82 | UK |006 |2 | Sherlock | 2016 | 
1.54 | TH |007 |3 | First Love | 2012 
士 十 十 十 十 


//// 以 表格 形式 查看 最 新 电影 的 票房 数据 
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scala > newDf. show 


16/04/27 09:11:51 INFOmapred. FileInputFormat :Total input paths to process :1 


十 十 十 十 十 十 
boxoffice | country | id | languageid | name | year | 

士 士 二 士 十 + 
33.9 | CN |001 |1 | Mermaid | 2016 | 
16.79 | CN |008 |1 | The Ghouls | 2015 | 
13. 82 | CN | 009 |1 | Breakup Buddie | 2014 | 

+ 士 二 十 十 + 


////df 和 newDf 做 排除 运算 


scala > df. except( newD{). show 


+ + 十 二 + 
boxoffice | country | id | languageid | name | year | 
十 十 十 十 十 
24. 38 | CN | 002 | 1 | Monster Hunt | 2015 | 
13.82 | USA |003 |2 | Avatar | 2010 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
5.33 | Uk |005 |2 | Spectre | 2015 | 
3.82 | UK |006 |2 | Sherlock | 2016 | 
1.54 |TH|007|3| First Love |2012 | 
十 十 十 十 十 + 
4) 解析 。 
因为 001Mermaid 这 部 电影 既 在 df 中 ， 又 在 newDf 中 ， 所 以 经 过 排除 运算 之 后 ，001 这 
条 记录 不 再 被 显示 。 
22. filter 
1) 定义 。 


def filter( conditionExpr: String) : DataFrame 


def filter( condition :Column ) : DataFrame 
2) 功能 描述 。 
按 参 数 指定 的 SQL 表达 式 的 条 件 过 滤 DataFrame。 
e filter( conditionExpr:String) 根据 给 的 的 SQL 表达 式 进 行 过 滤 ; filter( condition: Column) 
根据 给 的 条 件 进行 过 滤 。 例 如 过 滤 出 年 龄 大 于 15 岁 的 用 户 记录 : 


peopleDf. filter( "age > 15" ) 
peopleDs. where( $" age" >15) 


这 两 种 写法 是 等 价 的 。 


E 光 全 也 DataFrame 原 理 与 常用 操作 


3) 示例 。 


//// 过 滤 大 于 2015 年 的 记录 
scala > df. filter( "year > 2015" ). show 


+ 十 十 十 再 > 
boxoffice | country | id | languageid | name | year | 
十 十 十 十 十 
33.9 | CN |001 111 Mermaid | 2016 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
3.82 | UK |006 |2 | Sherlock | 2016 | 
证 证 下 让 t 中 


//// 过 滤 大 于 2015 年 ,并 且 国家 为 中 国 的 记录 


scala > df where($ "year" >2015 && $ "country" === "CN"). show 
+ + + + + 
boxoffice | country | id | languageid | name | year | 
+ + + + + 
33.9 | CN |001 | 1 | Mermaid | 2016 | 
+ + + + + 


23. groupBy 
1) 定义 。 


def groupBy( coll : String, cols: String * ) :CroupedData 

def groupBy( cols: Column * ) :CroupedData 
2) 功能 描述 。 
使 用 一 个 或 多 个 指定 的 列 对 DataFrame 进行 分 组 ， 以 便 对 它们 执行 聚合 操作 。 
3) 示例 。 


//// 根 据 country 列 对 df 进行 分 组 , 求 年 份 的 最 大 值 和 票 
scala > df groupBy(" country" ). agg( 


Sy 
的 
局 


均值 


| year" —>"max" 
| "boxoffice" —>"mean" 
| ). show 
十 十 十 


country | max( year) | avg(boxoffice) | 


十 + + 
TH |2012 |1.54 | 
UK |2016 |3. 82 | 
Uk |2015 | 5. 33 | 
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| USA |2016 | 14. 56 | 
| CN |2016 |29.14 | 


二 二 二 二 
示例 中 先 根据 country 列 对 df 进行 分 组 ， 分 组 后 求 年 份 的 最 大 值 和 票房 的 平均 值 。 
24. intersect 
1) 定义 。 


def intersect( other: DataFrame ) :DataFrame 


2) 功能 描述 。 
取 两 个 DataFrame 中 同时 存在 的 数据 记录 ， 返 回 DataFrame。 
3) 示例 。 


scala > df. select( "name" ). intersect( newDf select($ "name" ) ). show 


一 一 一 一 一 一 一 十 
name | 

+ 一 一 一 一 一 一 一 十 
Mermaid | 

F 一 一 一 一 一 一 一 + 


在 该 示例 中 ， 因 为 001 Mermaid 这 部 电影 既 在 df 中 ， 又 在 newDf 中 ， 所 以 intersect 的 运 


算 结 果 为 Mermaid 。 


25. join 
1) 定义 。 


def join( right: DataFrame ,joinExprs :Column ,joinType:Strng) : DataFrame 

def join( right: DataFrame ,joinExprs:Column) : DataFrame 

def join( right: DataFrame ,usingColumns: Seq| String | ,joinType:String) :DataFrame 
def join( right: DataFrame ,usingColumns :Sedq[ String | ) :DataFrame 

def join( right: DataFrame ,usingColumn:String) : DataFrame 


def join( right: DataFrame ) : DataFrame 


2) 功能 描述 。 
对 两 个 DataFrame 执行 join 操作 。join 根据 传人 参数 的 不 同 有 多 种 实现 方法 。 不 带 参 数 


时 取 笛 卡 儿 积 ， 仅 带 join Exprs 时 默认 为 Inner Join， 第 三 个 join 参数 joinType 可 以 指定 具体 
的 join 操作 ， 例 如 :" innet 、 left outet 、rightoutef 、' leftsemi6 。 


3) 示例 。 
在 本 章 的 2.2.3 节 的 第 14 示例 中 ,已 经 介绍 了 如 何 对 两 个 DataFrame 实例 进行 join 操 


作 。 下 面 再 来 做 一 个 简单 的 join 示例 ， 将 影片 信息 和 语言 信息 做 join 关联 操作 ， 查 询 显 示 汉 
语 、 英 语 其 他 语种 的 电影 影片 信息 。 


EE 光 大 英才 DataFrame 原 理 与 常用 操作 


//// 查 看 语言 信息 数据 


scala > language. show 


language | languageid | 


chinese | 1 | 
english | 多 | 
other |3 | 


//// 将 影片 信息 和 语言 信息 做 外 联 操作 


scala > film. join( language ,film( "languageid" ) === language( "languageid" ) ," outer" ). show 
十 一 一 一 十 十 
boxoffice | country | id | languageid | name | year | language | languageid | 
十 二 一 一 十 二 
33.9 | CN |001 11 | Mermaid | 2016 | chinese | 1 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | chinese |1 | 
5.33 | Uk |005 |2 | Spectre | 2015 | english |2 | 
3.82 | UK |006 |2 | Sherlock | 2016 | english |2 | 
13. 82 | USA |003 |2 | Avatar | 2010 | english |2 | 
15.3 | USA | 004 |2 | Zootropolis | 2016 | english |2 | 
1.54 |TH |007 |3 | FirstLove|2012| other |3| 
+ 3 t + + + yp. 
26. limit 
1) 定义 。 


def limit( n: Int) :DataFrame 


2) 功能 描述 。 
返回 DataFrame 的 前 n 条 数据 记录 。 


3) 示例 


scala > df limit(3 ). show 


十 十 十 十 十 
boxoffice | country | id | languageid | name | year | 

十 十 十 十 + 
33.9 | CN |001 |1 | Mermaid | 2016 | 
24. 38 | CN |002 | 1 | Monster Hunt | 2015 | 
13. 82 | USA |003 |2 | Avatar | 2010 | 

十 十 十 十 再 
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27. orderBy 和 sort 
1) 定义 。 
def sort( sortExprs: Column * ) :DataFrame 
def sort( sortCol: String, sortCols: String * ) :DataFrame 
def orderBy( sortExprs: Column * ) : DataFrame 
def orderBy( sortCol: String, sortCols: String * ) :DataFrame 
2) 功能 描述 。 
对 DataFrame 按 指定 的 一 列 或 多 列 进行 排序 ， 分 别 支 持 字 符 串 或 Column 的 参数 列表 。 
e sort( sortExprs:Column * ) : 根据 给 定 的 表达 式 返 回 一 个 新 的 DataFrame。 例 如 : 


df. sort( $"coll" ,$"col2". desc) 


® sort( sortCol:String,sortCols:String * ) : 根据 指定 的 列 返 回 一 个 新 的 DataFrame， 所 有 列 
升序 排列 。 以 下 三 种 写法 等 价 : 


df. sort( " sortcol" ) 
df. sort( $" sortcol" ) 


df. sort( $" sortcol" . asc) 


e orderBy( sortExprs:Column * ) : 按 给 定 的 表达 式 返 回 一 个 新 的 DataFrame。 这 是 sort 排 
序 函 数 的 别名 。 输 入 参数 为 多 个 Column 类 。 

® orderBy(sortCol : String,sortCols :String * ) : 按 给 定 的 表达 式 返回 一 个 新 的 DataFrame。 
这 是 sort 排序 函数 的 别名 。 输 入 参数 为 多 个 Sting 字符 串 。 

3) 示例 。 


//// 按 记 列 顺序 排序 ,并 返回 前 3 条 记录 
scala > df. sort( "id" ). show(3) 


十 十 十 十 十 
boxoffice | country | id | languageid | name | year | 

士 + + 十 二 
33.9| CN |001 | 1| Mermaid | 2016 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | 
13.82 | USA |003 | 2 | Avatar | 2010 | 

二 十 十 + + 


only showing top 3 rows 


//// 按 记 列 倒序 排序 ,并 返回 前 3 条 记录 
scala > df. sort( $ "id". desc). show(3) 


十 下 再 下 下 
boxoffice | country | id | languageid | name | year | 

十 十 十 十 十 
1.54 | TH |007 | 3 | First Love |2012 | 


EE 光 大 英才 DataFrame 原 理 与 常用 操作 


| 3.82 | UK |006 | 2| Sherlock | 2016 | 
| 5.33 | Uk |005 | 2| Spectre |2015 | 


| | | | 平 平 | 


only showing top 3 rows 二 


//// 按 year 和 boxoffice 两 列 顺序 排序 , 即 查询 结果 先 按 年 份 从 小 到 大 排序 ,其 中 2016 年 有 3 条 
记录 ,再 将 此 三 条 记录 按照 票房 收入 从 低 到 高 排列 ,最终 返回 排序 以 后 的 记录 

scala > df. orderBy( " year" ," boxoffice" ). show 

16/04/27 09:50:41 INFOmapred. FileInputFormat :Total input paths to process :1 


十 十 十 十 十 
boxoffice | country | id | languageid | name | year | 
t t 本 二 
13.82 | USA |003 | 2 | Avatar | 2010 | 
1.54 | TH|007| 3| First Love |2012 | 
5.33 | Uk |005 | 2 | Spectre | 2015 | 
24.38 | CN | 002 | 1 | Monster Hunt |2015 | 
3.82 | UK |006| 2| Sherlock | 2016 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
33.9 | CN |001 | 1| Mermaid | 2016 | 
二 二 + 二 二 + 


//// 按 year 和 boxoffice 两 列 排序 的 男 外 一 种 写法 ,col("year" ) 及 df("boxoffice" ) 是 男 外 一 种 的 
语法 表达 方式 

scala > df orderBy( col( "year" ) ,df( " boxoffice" ) ). show 

16/04/27 09:51:28 INFOmapred. FileInputFormat :Total input paths to process :1 


+ EE 
boxoffice | country | id | languageid | name | year | 
十 十 十 下 
13.82 | USA |003 | 2 | Avatar | 2010 | 
1.54| TH |007 | 3| First Love |2012 | 
5.33 | Uk |005 | 2 | Spectre | 2015 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | 
3.82 | UK |006 | 2| Sherlock | 2016 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
33.9 | CN |001 | 1| Mermaid | 2016 
后 a 下 让 是 


28. sample ( 取样 ) 
1) 定义 。 


def sample( withReplacement : Boolean ,fraction: Double ) :DataFrame 


def sample( withReplacement: Boolean ,fraction :Double ,seed:Long) :DataFrame 


2) 功能 描述 。 
Sample 对 RDD 中 的 数据 集 进 行 采 样 ， 生 成 一 个 新 的 RDD。withReplacement = true ， 表 示 
重复 抽样 ， withReplacement = false ， 表 示 不 重复 抽样 ;fraction 参数 是 生成 行 的 比例 。 

e sample (withReplacement: Boolean ，fraction : Double): 使 用 随机 因子 对 DataFrame 的 
Rows 进行 取样 ， 返 回 一 个 新 的 DataFrame。 

e sample (withReplacement: Boolean, fraction: Double, seed: Long) : 按 指 定 因 子 (seed) 
对 DataFrame 的 Rows 进行 取样 ， 返 回 一 个 新 的 DataFrame。 

3) 示例 。 


scala > df sample(false ,0. 5 ). show 
16/04/27 10:17:21 INFOmapred. FileInputFormat :Total input paths to process :1 


十 十 十 十 十 
boxoffice | country | id | languageid | name | year | 
+ 十 十 + + 
24.38 | CN | 002 | 1 | Monster Hunt |2015 | 
13.82 | USA |003 | 2| Avatar | 2010 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
5.33 | Uk |005 | 2 | Spectre | 2015 | 
1.54| TH|007| 3| First Love |2012 | 
下 下 十 十 下 


scala > df sample(false ,0. 5 ,1 ). show 


+ + 十 + + 
boxoffice | country | id | languageid | name | year | 
二 下 下 下 十 
33.9 | CN |001 | 1| Mermaid | 2016 | 
13.82 | USA |003 | 2 | Avatar | 2010 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
5.33 | Uk |005 | 2 | Spectre | 2015 | 
3.82 | UK |006 | 2| Shenock | 2016 | 
1.54 | TH | 007 | 3 | First Love |2012 | 
十 十 十 + + 万 


scala > df sample( true ,0. 5 ,1 ). show 


+ + + + + 
boxoffice | country | id | languageid | name | year | 
+ + + + + 


33.9 | CN |001 | 1| Mermaid |2016 | 
13.82 | USA |003 | 2| Avatar |2010 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
下 十 下 了 _ 
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当 withReplacement 为 true 时 ， 采 用 PossionSampler 抽样 句 ( Possion， 泊 松 分 布 ); 当 
withReplacemet 为 false 时 ， 采用 BernoulliSampler 抽样 器 ( Bernoulli, 伯 努 利 采样 ) 


29. select 


//// 写 法 一 :选取 name boxoffice 两 列 ,输出 数据 


scala > df. select( " name" ," boxoffice" ). show 


十 
name | boxoffice | 
十 
Mermaid | 33.9 | 
Monster Hunt | 24. 38 | 
Avatar | 13. 82 | 
Zootropolis | ns | 
Spectre | 5.33 | 
Sherlock | 3.82 | 
First Love | 1.54 | 
| 十 


//// 写 法 二 :选取 name .country 两 列 ,输出 数据 


scala > df select( $ "name" , $ "country" ). show 


name | country | 
Mermaid | CN | 
Monster Hunt | CN | 
Avatar | USA | 
Zootropolis | USA | 

Spectre | Uk | 
Sherlock | UK | 
First Love | TH | 


//// 写 法 三 :选取 name ,Country 两 列 , 输 出 数据 
scala > df select( col( "name" ) ,df( "country" ) ). show 


name | country | 


Mermaid | CN | 
Monster Hunt | CN | 
Avatar | USA | 
Zootropolis | USA | 
Spectre | Uk | 
Sherlock | UK | 


First Love | TH | 
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//// 写 法 四 :以 计算 表达 式 方式 选取 列 , 然 后 输出 数据 。 本 示例 选取 下 面 3 列 : 
////year +10 .name 列 改 成 flmName languageid 取 绝 对 值 


scala > df selectExpr(" year+10" ,"name as filmName" ,"abs(languageid)" ). show 


十 下 
(year+ 10) | fimName | abs(languageid) | 
十 + 
2026 Mermaid |1 | 
2025 | Monster Hunt |1 | 
2020 Avatar |2 | 
2026 | Zootropolis |2 | 
2025 Spectre |2 | 
2026 Sherlock |2 | 
2022 | First Love | 3 | 
+ + 


30. unionAll 
1) 定义 。 


def unionAll( other:DataFrame ) :DataFrame 


2) 功能 描述 。 
合并 两 个 DataFrame 的 全 部 数据 记录 。 
3) 示例 。 


//// 合 并 df 和 newDf 的 全 部 记录 
scala > df unionAll( newDf). show 


下 下 十 下 下 十 
boxoffice | country | id | languageid | name | year | 
十 十 十 十 十 + 
33.9 | CN |001 | 1| Mermaid | 2016 | 
24.38 | CN |002 | 1 | Monster Hunt | 2015 | 
13.82 | USA |003 | 2 | Avatar | 2010 | 
15.3 USA |004 | 2 | Zootropolis | 2016 | 
5.33 Uk |005 | 2 | Spectre | 2015 | 
3. 82 UK |006| 2| Sherlock | 2016 | 
1.54 TH |007 | 3| First Love | 2012 | 
33.9 CN |001 | 工 | Mermaid | 2016 | 
16.79 | CN |008|1| The Ghouls | 2015 | 
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113.82 | CN | 009 | 1 | Breakup Buddie | 2014 | 


| | | 再 再 


31. withColumn 和 withColumnRenamed 全 
1) 定义 。 
def withColumn( colName:String,col:Column ) :DataFrame 


def withColumnRenamed( existingName:String,newName:String) : DataFrame 
2) 功能 描述 。 
对 DataFrame 列 进 行 操作 ，withColumn 增加 DataFrame 的 列 信 息 ，withColumnRenamed 则 
是 对 DataFrame 的 列 进行 重 命 名 。 
3) 示例 。 


//// 新 增 level 列 ,其 值 为 boxoffice 列 /10 
scala > df. withColumn( "level" ,df( " boxoffice" )/10). show 


+ a a a + 
3 下 
boxoffice | country | id | languageid | name | year | level | 
+ + 下 a 二 + 
这 二 二 二 二 二 二 二 二 下 
33.9 | CN |001 | 1 Mermaid | 2016 | 3. 3899999999999997 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | 2. 4379999999999997 | 
13.82 | USA |003 | 2 | Avatar | 2010 | 1. 3820000000000001 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 1.53 | 
5.33 | Uk |005 | 2 | Spectre | 2015 | 0.533 | 
3.82 | UK |006| 2 | Sherlock | 2016 | 0. 382 | 
1.54| TH|007| 3| First Love |2012 | 0. 154 | 
+ 和 亚 十 
二 本 至 拓 二 二 震 三 却 再 


//// 将 boxoffice 列 重 命名 为 level 
scala > valrndf = df withColumnRenamed( " boxoffice" ," level" ) 


rndf: org. apache. spark. sql. DataFrame = [ level: double , country: string, id: string, languageid : bigint, 
name : string , year :bigint | 


scala > rndf. show 


+ + + 


本 
level | country | id | languageid | name | year | 

十 十 十 十 
33.9 | CN |001 | 1 Mermaid | 2016 | 
24.38 | CN | 002 | 1 | Monster Hunt | 2015 | 
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13.82 | USA |003 | 2| Avatar | 2010 | 
15.3 | USA | 004 | 2 | Zootropolis | 2016 | 
5.33 | Uk |005 | 2 | Spectre | 2015 | 
3.82 | UK |006| 2| Sherlock | 2016 | 
1.54| TH|007| 3| First Love |2012 | 
+ 十 下 十 十 


32. insertInto 、insertIntoJDBC、createJDBCTable 
1) 定义 。 


def insertInto( tableName :String) :Unit 
def insertInto( tableName:String,overwrite:Boolean) : Unit 


def insertIntoJDBC( url: String , table : String , overwrite : Boolean ) : Unit 


def createJDBCTable( url: String ,table: String , allowExisting: Boolean ) : Unit 


2) 功能 描述 。 
e insertInto (tableName: String): 从 RDD 插入 行 到 指定 的 表 。 如 果 表 已 经 存在 ， 则 抛 出 


已 肖 。 
有 前 

e insertInto (tableName: String，overwrite: Boolean ) : 从 RDD 插入 行 到 指 定 的 表 ， 可 选择 
是 否 覆 盖 现 有 数据 。 


e insertIntoJDBC (url: String, table: String, overwrite: Boolean ) : 根据 url (参数 url 用 来 
指定 数据 库 信息 ) 保存 DataFrame 到 JDBC 数据 库 的 表 中 。 如 果 表 已 经 存在 且 模式 兼 
容 ，overwrite 覆盖 设置 为 hue， 则 在 执行 插入 之 前 将 先 删除 掉 (truncate) 表 中 的 数 
据 。 表 必须 已 经 存在 于 数据 库 中 ; 数据 库 表 的 模式 和 RDD 的 模式 兼容 ， 从 RDD 插入 
行 ， 可 以 通过 简单 的 声明 ， 使 用 INSERT INTO table VALUES (?, ?, ..., ?) 插 入 值 ， 
操作 将 不 会 失败 。 

createJDBCTable (url: String, table: String, allowExisting: Boolean ) : 根据 url (参数 url 
用 来 指定 数据 库 信 息 ) 保存 DataFrame 到 JDBC 数据 库 的 表 中 ， 将 运行 新 建 表 (CRE- 
ATE TABLE) 和 插入 (INSERT INTO) 的 语句 。 如 果 设置 alowExisting 为 hue， 将 删 
掉 数 据 库 中 给 定名 称 的 表 ; 如 果 设 置 allowExisting 为 false， 将 抛 出 表 已 经 存在 的 


对 池 
二 吊 。 


[| createJDBCTable 和 和 insertIntoJDBC 从 Spark 1.4.0 版 本 开 始 使 用 » 将 在 Spark2. 0 中 刻 弃 » 可 以 使 用 
Write. jdbe( ) 方 法 。 


3) 示例 。 


//// 创 建 testin 这 个 DataFrame 对 象 ,把 1,3 这 行 数据 存 人 其 中 
scala > val testin = sqlContext. sql( "select 1 ,3" ). toDF( "first" ," second" ) 
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testin :org. apache. spark. sql. DataFrame = | first:int,second:int] 
scala > testin. registerTempTable( "test" ) 
//// 表 名 


scala > val dbtable = " TEST_JDBC" 
dbtable: String = TEST_JDBC 


//// 用 createJDBCTable 方法 在 MySQL 的 Hive 数据 库 中 创建 一 张 表 dbtable ,插入 testin 中 的 数据 
scala > testin. createJDBCTable ( " jdbce: mysql:// Master: 3306/hive? user = root&password = root", 


dbtable ,true ) 


//// 创 建 idf 这 个 DataFrame 对 象 ,把 2,4 这 行 数据 存 人 其 中 
scala > val idf = sqlContext("select 2,4" ). toDF( "first" ," second" ) 


idf:org. apache. spark. sql. DataFrame = [ first: int, second ;int | 


//// 再 把 idf 中 的 数据 通过 JDBC 写 人 到 MySQL 的 Hive 数据 库 的 dbtable 表 中 
scala > idf. insertIntoJDBC( " jdbe : mysql:// Master:3306/hive? user = root&password = root" , dbtable, 


true) 


//// 通 过 jdbe 从 MySQL 中 读 取 dbtable 表 中 的 数据 , 存 入 jdbeDF 这 个 DataFrame 对 和 象 中 
scala > val jdbcDF = sqlContext. load( "jdbe" ,Map( 

| "url" ~> "jdbe:mysql://Master:3306/hive? user = root&password =root", 

| "dbtable" -> dbtable) ) 


jdbcDF :org. apache. spark. sql. DataFrame = [ first:int, second :int | 


//// 显 示 jdbeDF 中 的 内 容 
scala > jdbcDF. show 


first | second | 
113| 
214| 

4) 解析 。 


该 示例 首先 创建 两 个 DataFrame 对 象 ，testin、idf。 然 后 ，testin 对 象 调用 createJD- 
BCTable 方法 ， 在 MySQL 中 创建 一 张 表 dbtable， 把 testin 中 的 数据 写 人 其 中 。 接 下 来 idf 对 
象 调 用 insertIntoJDBC 方法 ， 将 idf 的 数据 插入 到 刚才 创建 的 表 dbtable 中 。 

33. flatMap 

1) 定义 。 
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def flatMap[ R] (f: (Row)=—TraversableOnce[ R|]) (implicit arg0 :ClassTag[ R]) :RDD[ R] 


2) 功能 描述 。 

创建 一 个 新 的 RDD 对 DataFrame 中 的 所 有 最 后 记录 进行 处 理 ， 并 且 将 处 理 结果 的 所 有 
数据 仅 返回 一 个 数组 对 象 。 

flatMap[ R] 其 中 的 ，R 的 类 型 是 ClassTag，ClassTag[ T] 通 过 runtimeClass 清除 给 定 的 类 
型 T， 这 在 Array 元 素 类 型 未 知 ， 编 译 实例 化 元 素 特 别 有 用 。ClassTag 是 scala. reflect. api. Ty- 
peTags#TypeTag 的 特殊 情况 ， 在 运行 时 根据 给 定 的 类 型 封装 ， 而 TypeTag 包含 所 有 静态 类 型 
信息 。ClassTag 是 由 top - level 类 构建 ， 对 于 运行 时 创建 Array， 这 些 信 息 足 够 了 ， 因 此 ， 不 
必 知 道 所 有 参数 类 型 。 

3) 示例 。 


scala > val sdf = sqlContext. sql( "select 1,2" ) 
sdf; org. apache. spark. sql. DataFrame = | _c0.:int,_cl :int] 


scala > sdf. flatMap(x => List(x(0),x(1))) 
res5 :org. apache. spark. rdd. RDD| Any | = MapPartitionsRDD| 25 | at flatMap at < console > :29 


scala > sdf. flatMap(x => List(x(0),x(1))).collect 
res6: Array[ Any | = Array( 1 ,2) 


示例 中 将 数据 记录 转化 为 由 每 一 列 组 成 的 List。 
34. foreach 
1) 定义 。 


def foreach(f:(Row) 之 Unit) :Unit 
def foreachPartition(f: (Iterator[ Row | ) 一 Unit) : Unit 


2) 功能 描述 。 

foreach 方法 对 DataFrame 中 的 数据 记录 进行 循环 遍历 处 理 。foreachPartition 方法 则 是 对 
对 应 分 区 中 的 数据 记录 进行 处 理 ， 即 Iterator[ Row] ， 使 用 方法 类 似 。 

3) 示例 。 


scala > val sdf = sqlContext. sql( " select 1 ,2") 
sdf:org. apache. spark. sql. DataFrame = | _c0:int，cl:int] 


////foreach 打印 sdf 中 的 数据 
scala > sdf. collect. foreach( x => println( x)) 
[1,2] 


////foreach 循环 输出 分 割 线 
scala > sdf. collect. foreach( x => println(" 


的 
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35. map 


1) 定义 。 人 


def mapLR](f:(Row) 一 R) (implicit arg0:ClassTag[R]):RDDLRI 


2) 功能 描述 。 
map 方法 将 DataFrame 的 数据 记录 按 指定 的 函数 映射 成 一 个 新 的 RDD 实例 。 
3) 示例 。 


scala >sdf. map(x=>"First=" +x(0) +";Second=" +x(1)) 
res10 ;org. apache. spark. rdd. RDD[ String ] = MapPartitionsRDD[ 27 | at map at < console > :29 


scala > sdf map(x=>"First=" +x(0) +";Second =" +x(1)). collect( ). foreach( println) 
First = 1 ; Second =2 


36. repartition 
1) 定义 。 


def repartition( numPartitions :Int) :DataFrame 
def repartition( partitionExprs : Column * ) :DataFrame 


def repartition( numPartitions : Int ,partitionExprs :Column * ) : DataFrame 


2) 功能 描述 

返回 一 个 DataFrame ， 该 DataFrame 按 指定 numPartitions 对 原 DataFrame 进行 重 分 区 。 

e repartition (numPartitions: Int) : 返回 一 个 新 的 DataFrame， 生 成 numPartitions 个 分 区 。 

e repartition (partitionExprs: Column * ) : 返回 一 个 新 的 DataFrame， 根 据 给 定 的 分 区 表 
达 式 保存 现 有 的 分 区 数 ， 由 此 产生 的 DataFrame 是 喻 希 分 区 ， 这 和 SQL (Hive QL) 
中 的 DISTRIBUTE BY 操作 是 相同 的 。 

e repartition (numPartitions : Int, partitionExprs: Column * ) : 返回 一 个 新 的 DataFrame， 
根据 给 定 的 分 区 表达 式 生 成 numPartitions 个 分 区 ， 由 此 产生 的 DataFrame 是 哈 希 分 区 ， 
这 和 SQL (Hive QL) 中 的 DISTRIBUTE BY 操作 是 相同 的 。 

3) 示例 。 


scala > df repartition( 1 ). rdd. partitions. size 
resl2:Int=1 


37. toJSON 
1) 定义 。 


def toJSON:RDD[ String ] 
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2) 功能 描述 。 
把 Dataframe 的 数据 记录 用 包含 JSON 字符 串 的 RDD 形式 返回 。 
3) 示例 。 


scala > df. toJSON. collect //Collect 方法 返回 一 个 数组 ,包含 RDD 中 所 有 的 元 素 

res15 :Array[ String | = 

Array ( | "boxoffice" .33.9," country" :" CN" ,"id":."001","languageid" :1," name" :" Mermaid" ," 
year" :2016} , |" boxoffice" .24. 38,"country" :" CN" ,"id" :"002" ,"languageid" :1,"name" :" 
Monster Hunt" ," year" :2015 | , | " boxoffice" : 13. 82," country" :" USA"," id":"003"," lan- 
guageid" :2," name" :" Avatar" , "year" :2010}| ,| "boxoffice" :15.3,"country" :" USA","id"." 


004" , "languageid" :2," name" :" Zootropolis" , "year" :2016}| , |" boxoffice" .5. 33," country" :" 


Uk" ,"id" :"005","languageid" :2," name" :" Spectre" ," year" :2015 | , |" boxoffice" .3. 82," 
country" :" UK" ,"id" :"006","languageid" :2," name" :" Sherlock" ," year" :2016}| , | " boxof- 
fice" ;1.54,"country" :" TH","id":"007"," languageid" :3," name" :" First Love" ," year": 
20121 ) 


38. queryExecution 
1) 定义 。 


val queryExecution :QueryExecution 


2) 功能 描述 。 

返回 DataFrame 的 查询 执行 语句 ， 包 含 逻 辑 计 划 (Logical Plan) 和 物理 计划 (Physi- 
cal Plan) 。 返 回 DataFrame 的 查询 执行 语句 ， 包 含 逻辑 计划 和 物理 计划 。 逻 辑 计 划 描 述 了 
DataFrame 生成 数据 所 需 的 逻辑 计算 ，Spark 查询 优化 需 将 优化 轩 辑 计划 ， 生 成 一 个 并 行 
分 布 式 有 效 执 行 的 物理 计划 ，DataFrame 可 以 通过 queryExecution 方法 来 查询 逻辑 计划 和 物 
理 计划 。 

3) 示例 。 


scala > df. queryExecution 

res16 :org. apache. spark. sql. execution. QueryExecution = 

== Parsed Logical Plan == 

Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L,name#M4 ,year#$WML | JSONRelation 


== Analyzed Logical Plan == 
boxoffice :double , country : string ,id :string , languageid : bigint, name : string , year : bigint 


Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L,name#M4 ,year 网 工 ] JSONRelation 


== Optimized Logical Plan == 
Relation| boxoffice#0 ,country#1 ,id#2 ,languageid#3L,name#4 ,year#$ML | JSONRelation 


== Physical Plan == 


> 
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ScanJSONRelation| boxoffice#0 ,country#1] ,id#2 ,languageid#3L, name#4 ,year#5L | InputPaths: hdfs:// 
Master :9000/library/ Spark SQL/ Data/ film. json 


© 


肠 对 了 本 章 小 结 


通过 本 章 的 学 习 ， 读 者 应 该 对 DataFrame 编程 模型 有 了 一 个 基本 的 了 解 ， 明 确 了 Dat- 
aFrame 和 RDD 的 区 别 ， 以 及 两 者 之 间 的 转换 。 本 章 通过 一 系列 常用 DataFrameAPI 的 示例 解 
析 ， 详 解 了 DataFrame 的 具体 用 法 ， 在 实际 操作 DataFrame 的 过 程 中 ， 可 以 充分 利用 SQL 的 
简洁 性 和 DataFrame 的 功能 特性 ， 进 行 高 效 的 数据 处 理 。 
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第 3 前 Spark SQL 操作 多 种 数据 源 


在 Spark SQL 中 ， 对 很 多 种 数据 格式 的 读 取 和 保存 方式 都 很 简单 。 本 章 将 通过 具体 的 操 
作案 例 ， 一 一 介绍 Spark SQL 是 如 何 读 取 和 处 理 多 种 数据 源 的 ， 包 括 : Parquet、Hive 、Json 、 
HBase 等 。 


<“ 二 出 通用 的 加 载 /保存 功能 


Spark SQL 对 于 DataFrame 提供 了 数据 加 载 和 保存 的 操作 方法 : 
e 数据 加 载 : 在 SQLContext 中 通过 parquetFile 、jsonFile 、load 、jdbc 等 方法 分 别 加 载 
parquet 、json 、 文 本 文件 或 数据 库 的 数据 来 创建 DataFrame。 
e 保存 : 在 DataFrame 中 通过 saveAsParquetFile 、saveAsTable 、save 把 DataFrame 中 的 数 
据 保 存 到 Parquet 、json 、 文 本 文件 或 数据 库 中 。 
Spark SQL 中 的 数据 加 载 和 保存 是 最 基本 也 是 比较 重要 的 操作 ， 接 下 来 就 通过 案例 演示 
具体 的 使 用 。 


”Spark SQL 加 载 数 据 


Spark SQL 加 载 数据 是 通过 load 函数 实现 的 ， 下 面 就 通过 具体 案例 动手 实践 load 函数 的 
用 法 。 实 验 的 前 提 是 启动 HDFS、Spark 集群 ， 并 且 以 集群 的 方式 运行 Spark - Shell 命令 行 。 

1. 创建 目录 

首先 ,在 HDFS 文件 系统 中 创建 examples 目录 ， 操 作 如 下 : 


横山 在 HDFS 文件 系统 中 创建 examples 目录 
[ root@ Master resources |#hdfs dfs - mkdir /examples 


挫 禁 显示 HDFS 下 的 目录 

root@ master: ~ #hdfs dfs -1s / 

Found 1 items 

drwxr ~xr ~ x  —root supergroup 0 2016 -11 -14 20:23 /examples 
drwxr ~xr—xX  —root supergroup 0 2016 -11 -14 20:23 /data 


2. 目录 查询 与 确认 
第 一 步 的 目录 创建 完成 之 后 ， 可 以 通过 HDFS 的 Web 控制 台 界 面 ， 来 查询 新 建 目录 是 


上: 让 二: 靖 和 Sbark SQL 操作 多 种 数据 源 


否 已 经 创建 成 功 。 

通过 在 Web 控制 台 输 入 URL :http://Master:50070/explorer. html#/， 或 者 直接 输入 Mas- 
ter 的 IP 地 址 ， 如 ; http ://xxx. XXX. XXX. XXX : S0070/ explorer. html#/, 即 可 进入 HDFS 的 Web 
控制 台 界面 ， 如 图 3-1 所 示 。 由 此 可 以 确认 上 一 步 中 新 建 的 目录 examples 已 经 创建 成 功 。 ”他 


图 master:50070/explorer.html#/ v 包 | IE 怠 Google 


Hadoop Overview Datanodes Snapshot StartupProgress 。 Utilities 


Browse Directory 


/ Go! 
Permission Owner Group Size Replication Block Size Name 
drwxr-xr-x root supergroup 0B 0 0B data 
drwxr-xr-x root supergroup 0B 0 0B examples 


图 3-1 HDFS Web 控制 台 界面 
3. 文件 传 入 
确认 目录 创建 好 之 后 ,将 Spark 系统 中 自 带 的 examples \src \main \resource 中 的 peo- 
ple. json 文件 上 传 到 HDFS 的 examples 目录 下 。 有 具体 操作 如 下 : 


[ root@ Master resources ]#hdfs dfs - put people. json /examples 


4. 文件 读 取 
将 文件 传 至 新 目录 examples 下 后 ， 可 以 通过 以 下 操作 读 取 HDFS 目录 下 的 examples 中 的 
people. json 文件 。 


scala > sqlContext 


res0 :org. apache. spark. sql. SQLContext = org. apache. spark. sql. hive. HiveContext@ 274b0c2a 


//// 用 format 指定 读 取 文件 的 格式 

scala > val peopleDF = sqlContext. read. format( " json" ). load( " /examples/ people. json" ) 

16/04/30 16: 41: 22 INFOjson. JSONRelation: Listing hdfs://Master: 9000/examples/people. json 
on driver 


peopleDF :org. apache. spark. sql. DataFrame = [ age: bigint, name :string | 


S. 数据 显示 
读 取 文件 之 后 ， 可 以 使 用 show 命令 将 文件 中 的 数据 显示 出 来 。 具 体 实 现 如 下 : 


scala > peopleDF. show 


| null | Michael | 
| 30| Andy| 
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“1 Spark SQL 保存 数据 


Spark SQL 通过 save 函数 可 以 将 操作 完 的 结果 指定 保存 。save 函数 把 DataFrame 中 的 数 
据 保 存 到 文件 或 者 用 具体 的 格式 来 指明 要 读 取 的 文件 的 类 型 ， 以 及 用 具体 的 格式 来 指出 要 输 
出 的 文件 是 什么 类 型 。 

1. 保存 操作 结果 

上 一 节 的 案例 中 读 进 来 的 数据 中 的 name 被 筛选 出 来 之 后 ， 可 以 通过 save 方法 对 此 结果 
进行 保存 ， 具 体操 作 如 下 : 


scala > peopleDF. select("name" ). write. format( " json" ). save( "/examples/ peopleresult. json" ) 

ee 省 瞬 日 志 信 息 

16/04/30 16:52:22 INFO datasources. DefaultWriterContainer: Job job_201604301652_0000 commit- 
ted. 


16/04/30 16:52:22 INFOjson. JSONRelation : Listing hdfs://Master:9000/examples/ peopleresult. json 
on driver 


2. 查看 保存 结果 
保存 以 后 的 结果 ， 同 样 可 以 通过 HDFS 的 Web 控制 台 界 面 查看 输出 的 结果 ， 如 图 3-2 
所 示 。 


[ 图 master:50070/explorer.html#/examples/peopleresult.json v 留 


由 vv Google 


Hadoop 


Browse Directory 


/examples/peopleresultjson | Gol 
Permission Owner Group Size Replication Block Size Name 
-TW-[—r— root supergroup 0B 1 128 MB _SUCCESS 
-rwW-[ 一 [-- root supergroup 35B 1 128 MB part-r-00000-695179c1-1e83-4b24-8475-22fb100d1f8f 
-TW-[—[— root supergroup 18 B 和 128 MB part-r-00001-695179c1-1e83-4b24-8475-22fb100d1f8f 


图 3-2 Web 端 显 示 成 功 


综合 案例 一 一 电 商 热 销 商品 排名 


本 节 介 绍 的 案例 是 要 实现 对 电 商 热 销 商品 的 排名 操作 。 在 该 案例 中 ， 将 演示 如 何 通 过 
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Spark SQL 来 读 取 和 存储 数据 ， 以 不 同方 式 创建 “商品 销售 数据 ”和 “商品 价格 ”两 个 Dat- 
aFrame 对 象 ， 把 DataFrame 对 象 与 RDD 进行 转换 ， 然 后 进行 Join 操作 ， 动 态 创建 了 新 的 
DataFrame 对 象 ， 最 后 输出 新 DataFrame 对 象 中 的 数据 。 
1， 准 备 数据 > 
在 DD 盘 根 日 录 下 ,创建 商品 数据 文件 goods. json， 包 括 3 条 记录 ， 包 括 商 品名 称 和 数 
量 ， 内 容 如 下 : 


| 1 name" : 1 Bag" S 1 num" :98 | 
| "name" :"iPhone" ,"num" :100} 


| 1 name" 二 Book" WD num" .58 } 


2. 代码 实现 
基于 前 两 节 介绍 的 ， 通 过 Spark SQL 读 取 和 存储 数据 的 方法 实现 本 案例 的 代码 如 下 : 


import java. util. ArrayList; 


import java. util. List; 


import org. apache. spark. SparkConf; 

import org. apache. spark. api. java. JavaPairRDD ; 
import org. apache. spark. api. java. JavaRDD ; 

import org. apache. spark. api. java. JavaSparkContext; 
import org. apache. spark. api. java. function. Function; 
import org. apache. spark. api. java. function. PairFunction ; 
import org. apache. spark. sql. DataFrame; 

import org. apache. spark. sql. Row; 

import org. apache. spark. sql. RowFactory; 

import org. apache. spark. sql. SQLContext; 

import org. apache. spark. sql. types. DataTypes; 
import org. apache. spark. sql. types. StructField; 
import org. apache. spark. sql. types. StructType; 


import scala. Tuple2 ; 


public classSpark SQLWithJoin | 
public static void main( String[ | args) | 
SparkConf conf = new SparkConf( ). setMaster( " local" ) . setAppName ( " SparkSQLWith- 
Join" ) ; 
JavaSparkContext sc = new JavaSparkContext( conf ) ; 
SQLContextsqlContext = new SQLContext( sc ) ; 


/水 水 
* 读 取 商品 销售 数据 Json 文件 ,创建 商品 销售 数据 DataFrame 对 象 
*/ 
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DataFramegoodsDF = sqlContext. read( ). json( "E:\\goods. json" ); 


/ 米 米 
* 基于 商品 销售 数据 DataFrame 来 注册 临时 表 
*/ 

goodsDF. registerTempTable( " goodsNum" ) ; 


/ 米 米 
* 查询 出 销售 数量 大 于 90 的 商品 
*/ 
DataFrame excellentNumDF = sqlContext. sql( " select name, num from goodsNum where num 
>90" ) ; 
/ 米 米 
* 在 DataFrame 的 基础 上 转化 成 为 RDD ,再 通过 map 操作 获得 销售 数量 大 于 90 的 所 
有 商品 的 名 称 


*/ 
List < String > excellentNumNameList = excellentNumDF. javaRDD ( ). map ( new Function < 


Row, String > ( ) | 


public String call( Row row) throws Exception | 
// TODO Auto - generated method stub 


return row. getAs("name" ); 


| ). collect( ) ; 


区 
* 动态 构建 商品 价格 Json 数据 
*/ 


List < String > goodsPrice = new ArrayList < String > ( ); 
goodsPrice. add(" {|\"name\":\"Bag\",\"price\" :200}1"); 
goodsPrice. add(" {| \"name\":\"iPhone\",\"price\" :5000}"); 
goodsPrice. add(" |\"name\":\"Book\",\"price\" .30}1"); 


A 
x* 将 上 述 List 集合 变 成 RDD 
*/ 


JavaRDD < String > goodsPriceRDD = sc. parallelize ( goodsPrice ) ; 


/水 水 
* 再 通过 RDD 来 构建 商品 价格 DataFrame 对 象 
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*/ 
DataFrame goodsPriceDF = sqlContext. read( ). json( goodsPriceRDD ) ; 


~ © 


+ 把 商品 价格 DataFrame 对 象 注册 为 临时 表 
*/ 
goodsPriceDF. registerTempTable( " goodsPrice" ) ; 


// 遍 历 excellentNumNameList 集合 ,组 装 SQL 语句 


String sqlText = " select name ,price from goodsPrice where name in("; 


for(inti=0;i<excellentNumNameList size( );i+ +)| 


中 


" "+ excellentNumNameList. get(i) + ; 


sqlText += 
if(i < excellentNumNameList size( ) —1)| 


I 


sqlText +="， 


| 


sqlText +=" )"; 


// 执 行 该 SQL 语句 ,生成 销售 数量 大 于 90 的 商品 价格 DataFrame 对 象 


DataFrame excellentNamePriceDF = sqlContext. sql(sqlText ) ; 


/六 六 
* 将 两 个 DataFrame 通过 mapToPair 转化 成 新 的 JavaRDD ,再 执行 join 操作 
*/ 


JavaPairRDD < String, Tuple2 < Integer, Integer >> resultRDD = excellentNumDF. javaRDD( ) 


. mapToPair( new PairFunction < Row, String, Integer > ( ) | 


private static final long serialVersionUID =1L; 


@ Override 
public Tuple2 < String, Integer > call( Row row )throws Exception | 


return new Tuple2 < String, Integer > ( (String) row. getAs( " name"), (int) 


row. getLong(1)); 
| 


| ). join(excellentNamePriceDF. javaRDD( ). mapToPair( new PairFunction < Row ,String ,In- 
teger > () | 


private static final long serialVersionUID =1L; 


@ Override 
public Tuple2 < String ,Integer > call( Row row )throws Exception | 
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return new Tuple2 < String, Integer > ( (String) row. getAs ( "name" ) , (int) 
row. getLong( 1) ) ; 
| 
DE; 


/ 米 米 
* 转换 resultRDD 的 类 型 为 JavaRDD < Row > 
*/ 
JavaRDD < Row > resultRowRDD = resultRDD. map (new Function < Tuple2 < String, Tuple2 
< Integer, Integer > , Row > ( ) | 
@ Override 
public Row call( Tuple2 < String, Tuple2 < Integer, Integer >> tuple ) throws Exception | 
// 返 回 一 行 一 行 的 内 容 
return RowFactory. create( tuple. _1 ,tuple. 2. _1,tuple. 2. 2); 


[8 
[沙洲 
* 动态 组 拼 元 数据 
*/ 


List < StructField > structFields = new ArrayList < StructField > ( ); 

structFields. add ( DataTypes. createStructField( " name" , DataTypes. StringType ,true ) ) ; 
structFields. add ( DataTypes. createStructField( " num" , DataTypes. IntegerType ,true ) ) ; 
structFields. add ( DataTypes. createStructField( " price" , DataTypes. IntegerType ,true ) ) ; 


// 构 建 StructType, 用 于 最 后 DataFrame 元 数据 的 描述 
StructTypestructType = DataTypes. createStructType( structFields ) ; 


DataFramepersonsDF = sqlContext. createDataFrame( resultfRowRDD , structType ) ; 
personsDF. show( ) ; 
/沙沙 

* 将 处 理 的 数据 保存 在 D 盘 根 目录 下 的 goodsResult 文件 下 


*/ 
personsDF. write( ). format( "json" ). save( "D:\\goodsResult" ); 


| 
3. 运行 结果 
以 上 代码 的 运行 结果 如 下 ， 如 期 实现 并 输出 了 符合 条 件 的 新 DataFrame 对 象 中 的 数据 : 
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十 十 十 十 
name | num | price | 
+ + 再 
Bag | 98 | 200 | 
iPhone | 100 | 5000 
十 年 十 


Spark SQL 操作 Hive 示例 


在 目前 企业 级 Spark 大 数据 开发 中 ， 大 多 数 情况 下 都 是 采用 Hive 来 作为 数据 仓库 的 。 
Spark 提供 了 对 Hive 的 支持 ，Spark 通过 HiveContext 可 以 直接 操作 Hive 中 的 数据 。 基 于 
HiveContext， 我 们 可 以 使 用 sql/hql 两 种 方式 来 编写 SQL 语句 对 Hive 进行 操作 ， 包 括 : 创建 
表 、 删 除 表 、 往 表 中 导入 数据 ， 以 及 对 表 中 的 数据 进行 CRUD ( 增 、 删 、 改 、 查 ) 操作 。 下 
面 就 开始 动手 实战 。 

本 案例 使 用 Scala 语言 开发 ， 在 Spark 中 使 用 Hive 数据 库 ， 通 过 HiveContext 使 用 Join 基 
于 Hive 中 的 两 张 表 (人 员 信 息 表 、 人 员 分 数 表 ) 进行 关联 ， 查 询 大 于 90 分 的 人 的 姓名 、 分 
数 、 年 龄 。 演 示 了 对 Hive 的 常用 操作 (例如 删除 表 、 新 建 表 、 加 载 表 数据 、 保 存 表 数 据 )， 
然后 打包 递交 到 Spark 集群 中 运行 。 具体 实现 如 下 : 

1. 准备 数据 

在 /home/Document/resource 目录 下 ， 创 建 两 个 文件 : people. txt 和 peoplescores. txt，peo- 
ple. txt 文件 是 人 员 信 息 表 ， 包 括 人 员 姓 名 和 年 龄 信息 ; Peoplescores. txt 是 人 员 分 数 表 ， 包 括 
人 员 姓 名 和 分 数 信息 。 


Michael 29 
Andy 30 
Justin 19 


Peoplescorees. txt 的 文件 内 容 如 下 : 


Michael 99 
Andy 9 
Justin 68 


2. 代码 实现 
以 下 代码 实现 在 Hive 中 新 建 表 以 及 加 载 表 数据 ， 使 用 Join 将 人 员 信 息 表 、 人 员 分 数 表 
进行 关联 ， 查询 大 于 90 分 的 人 的 姓名 、 分 数 、 年 龄 。 


package com. dt. spark. sql 


import org. apache. spark. SparkConf 
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import org. apache. spark. SparkContext 


import org. apache. spark. sql. hive. HiveContext 


/沙沙 
* @ author Jonson 
*/ 
object SparkSQLOnHive | 
def main( args:Array[ String | ) : Unit = | 
val conf = newSparkConf( ). setMaster( " spark://Master:7077" ). setAppName ( " SparkSQLOn- 
Hive" ) 


val sc = newSparkContext( conf) 


/kx 
x* 第 一 :直接 通过 saveAsTable 的 方式 把 DataFrame 的 数据 保存 到 Hive 数据 仓库 中 
* 第 二 :可 以 直接 通过 HiveContext table 方法 来 直接 加 载 Hive 中 的 表 而 生成 DataFrame 
*/ 


val hiveContext = new HiveContext( sc) 


// 使 用 Hive 数据 仓库 中 的 Hive 数据 库 


hiveContext. sql( "use hive" ) // 需 要 提前 在 Hive 中 创建 Hive 表 
hiveContext. sql( " DROP TABLE IF EXISTS people" ) // 删 除 同名 表 


hiveContext. sql(" CREATE TABLE IF NOT EXISTS people( name INT,age INT)" ) // 创 建 自 定 义 的 表 


/沙洲 
+ 把 本 地 数据 加 载 到 Hive 数据 仓库 中 ,背后 实际 上 发 生 了 数据 的 复制 
+ 当然 ,也 可 以 通过 LOAD DATA INPATH 获得 HDFS 等 上 面 的 数据 到 Hive 中 (此 时 发 生 了 
数据 的 移动 ) 
*/ 
hiveContext. sql( " LOAD DATA LOCAL INPATH' /home/ Document/resource/ people. txt INTO 
TABLE people" ) 


hiveContext sql(" DROP TABLE IF EXISTS peoplescores" ) /删除 peoplescores 表 

hiveContext. sql( " CREATE TABLE IF NOT EXISTS peoplescores( name INT ,score INT)") 

hiveContext. sql( " LOAD DATA LOCAL INPATH' /home/ Document/resource/ peoplescores. txt 
INTO TABLE peoplescores" ) 


/kx 
* 通过 HiveContext 使 用 join 直接 基于 Hive 中 的 两 张 表 进行 操作 ,获得 大 于 90 分 的 人 的 
name score ,age 


*/ 


val resultDF = hiveContext. sql( "SELECT pi. name, pi. age, ps. score FROM people pi JOIN peo- 


plescores ps ON pi. name = ps. name" + 


上 :让 于 贡 和 Sbark SQL 操作 多 种 数据 源 


"WHERE ps. score >90" ) 


DE 


通过 saveAsTable 创建 一 张 Hive Managed Table， 表 (peopleinformationresult) ，peoplein- © 
formationresult 表 数 据 的 元 数据 和 数据 即将 放 的 位 置 都 是 由 Hive 数据 仓库 进行 管理 的 ， 当 删 
除 该 表 的 时 候 ， 数 据 也 会 一 起 被 删除 (磁盘 上 的 数据 不 再 存在 ) 。 


# resultDF 是 大 于 90 分 的 人 员 信 息 表 Data Frame ,包括 姓名 、 分 数 ,调用 Data Frame 的 saveAsT- 
able 方法 ,将 resultDF 中 大 于 90 分 的 记录 保存 到 Hive 数据 库 表 peopleinformationresult 中 

*/ 
hiveContext. sql( " DROP TABLE IF EXISTS peopleinformationresult" ) 


resultDF. saveAsTable( " peopleinformationresult" ) 


[炒米 
* 使 用 HiveContext 的 table 方法 可 以 直接 读 取 Hive 数据 仓库 中 的 Table 并 生成 DataFrame 
*/ 


val dataFrameHive = hiveContext. table( " peopleinformationresult" ) 


dataFrameHive. show( ) 
| 
| 


3. 打 成 JAR 包 

之 前 我 们 在 Eclipse 中 进行 了 编码 ， 在 本 地 运行 通过 后 ， 需 要 将 代码 打 成 JAR 包 ， 然 后 
将 JAR 包 上 传 到 Spark 集群 中 运行 。 

单 击 鼠 标 右键 ， 选 择 export 命令 ， 选 择 JAR file， 然 后 点 击 Next 按钮 ， 如 图 3-3 所 示 。 

选择 Browse 按钮 指定 JAR 导出 的 路 径 ， 如 图 3-4 所 示 。 


Select the resources to export: 


> 区 ScalaDemo 回 国 .cache-main 
Select an export destination: > 锡 SparkApps 回 四 .classpath 
v 国名 SparkAppsDemo 回 鸭 .project 
R = 
》 对 General > 加 = ee 
> 色 Install 3 
Y Javo i 回 Export generated class files and resources 
上 号 口 Export all output folders for checked projects 
avadoc 
a Runnable JAR file 口 Export Java source files and resources 
> Bs Plug-in Development 口 Export refactorings for checked projects. Select refactoring 
> 久 ; Run/Debug 
> 包 Team Select the export destination: 
> .XML JAR file: | EN\SparkSQLOnHivejar ~v|| Browse... 
Options: 


MI Compress the contents of the JAR file 
口 Add directory entries 
口 Overwrite existing files without warning 


© | Rc ©® rl a 酸 本 


/| 
(LD 
由 
党 
区 
id 
> 
二 
中 
G 


图 3-4 指定 JAR 文件 导出 的 路 径 


SparkApps 


File Edit View Places Help 


本 办 机 
SparkSQLOnHive.jar ”spark-study-java-0. spark-study-java-0. 


0.1-SNAPSHOT.jar 0.1-SNAPSHOT-jar 
with-dependencie... 


| 
wordcount.sh 


图 3-5 复制 JAR 文件 

4. 编辑 脚本 并 运行 代码 

在 Linux 系统 中 运行 Spark - Submit 时 ， 如 果 不 编写 脚本 ， 每 次 都 要 在 Linux 提示 符 中 输入 
Spatk - Submit 运行 的 参数 及 相应 的 JAR 包 ， 调 测 不 是 很 方便 。 因 此 ， 我 们 编写 脚本 文件 ， 将 
Spark -Submit 的 相关 内 容 编写 在 wordcount. sh 脚本 文件 中 ，wordcount. sh 脚本 可 以 放 在 Linux 
自 定义 的 目录 下 (例如 /usr/local/wordcount/)， 并 且 通 过 chmod u +x wordcount. sh 赋予 word- 
count. sh 可 执行 权限 。 这 样 运 行 Spark 应 用 程序 ， 每 次 只 要 运行 wordcount. sh 就 可 以 了 。 

编辑 wordcount. sh 脚本 如 下 : 


/usr/local/ spark/ spark — 1. 6. 3—bin - hadoop2. 6/bin/ spark — submit 

—— class com. dt. spark. sql. SparkSQLOnHive -= file /usr/local/hive/hive — 1. 2. 1 - bin/con{/hive — 
site. xml 

—— driver — class - path /usr/local/hive/apache - hive - 1.2.1 - bin/mysql - connector — java — 
5. 1.35 -bin. jar 

—— master spark://Master:7077 /root/home/ Document/ Spark Apps/ SparkSQLOnHive. jar 


启动 Hive 的 metastore 步骤 如 下 : 


[ root@ Master Spark Apps |# hive —— servicemetastore®& 
[1] 6028 
[ root@ Master Spark Apps |# SLF4]J:Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [ jar:file:/usr/local/hadoop/ hadoop — 2. 6. 0/share/ hadoop/ common/ lib/ sl{4j 
—log4j12—1.7.5. jar! /org/slf{4j/impl/ StaticLoggerBinder. class | 

SLF4J: Found binding in [jar:file:/usr/local/ spark/spark - 1.6.3— bin - hadoop2. 6/lib/spark — as- 
sembly —1. 6. 0 - hadoop2. 6. 0. jar! /org/sl{4j/impl/StaticLoggerBinder. class | 

SLF4]J:See http://www. slf4j. org/ codes. html#multiple_bindings for an explanation. 


SLF4J: Actual binding is of type [ org. sl{4j. impl. Log4jLoggerFactory | 

Starting HiveMetastore Server 

[ root@ Master Spark Apps ]# SLF4]J:Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [ jar:file:/usr/local/hadoop/ hadoop — 2. 6. 0/share/ hadoop/ common/ lib/ sl{4}j 
—log4j12—1.7.5. jar! /org/slf{4j/impl/ StaticLoggerBinder. class | 

SLF4J: Found binding in [jar:file:/usr/local/ spark/spark - 1.6.3— bin - hadoop2. 6/lib/spark — as- 
sembly -1. 6. 0 - hadoop2. 6. 0. jar! /org/sl{4j/impl/StaticLoggerBinder. class| 

SLF4]J:See http://www. slf4j. org/ codes. html#multiple_bindings for an explanation. 

SLF4J: Actual binding is of type [ org. sl{4j. impl. Log4jLoggerFactory | 
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运行 上 述 编辑 过 的 脚本 ， 命 令 行 如 下 : 


[ root@ Master Spark Apps |# . /wordcount. sh 


输出 结果 如 下 : > 
十 下 
name | age | score | 
十 下 
Michael | 29 | 99 | 
Andy | 30 | 97 


5. 查询 执行 结果 
上 述 代 码 执行 之 后 ， 可 以 在 Hive 中 查询 执行 结果 。 各 类 查询 命令 行 及 结果 如 下 : 


hive > select * from people; // 查 询 人 员 信息 :姓名 年龄 
OK 

Michael 29 

Andy 30 

Justin 19 

Time taken:1.881 seconds ,Fetched:3 row(s) 

hive > select * frompeo plescores ; // 查 询 人 员 分 数 信息 :姓名 ,分数 
OK 

Michael 99 

Andy 四 扩 

Justin 68 


Time taken :0. 335 seconds ,Fetched:3 row(s) 

Hive > select * from peopleinformationresult; // 查询 大 于 90 分 的 人 的 姓名 分 数 。 这 里 的 Hive 
数据 库 表 peopleinformationresult 是 大 于 90 分 的 人 员 信 息 记录 ,包括 人 名 和 分 数 。 

OK 

SLF4J: Failed to load class “ org. slf4j. impl. StaticLoggerBinder”. 

SLF4J: Defaulting to no ~ operation( NOP ) logger implementation 

SLF4]J:Seehttp://www. sl{4j. org/ codes. html#StaticLoggerBinder for further details. 

Michael 99 

Andy 9 

Time taken:0. 41 seconds ,Fethed:2 row(s) 


Spark SQL 操作 JSON 数据 集 示 例 


Spark SQL 可 以 自动 推断 JSON 数据 集 的 模式 ， 在 Spark 2. 1. x 中 ， 将 其 加 载 为 Dataset < 
Row > ， 可 以 使 用 SparkSession. read. json( ) 读 取 JSON 文件 加 载 数据 。 
Spark SQL 操作 Json 数据 集 代码 示例 如 下 : 
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e 读 入 JSON 文件 加 载 JSON 数据 集 。 
e 读 入 RDDI[ String] 加 载 JSON 数据 集 ， 其 中 字符 串 String 是 JSON 格式 。 


import org. apache. spark. sql. Dataset; 


import org. apache. spark. sql. Row; 


/AJSON 数据 集 指向 路 径 可 以 是 单个 文本 文件 ,也 可 以 是 存储 文本 文件 的 目录 


Dataset < Row > people = spark. read( ). json( "examples/src/main/resources/ people. json" ) ; 


// 推 断 模式 可 以 使 用 printschema( ) 方 法 打印 出 JSON 文件 的 结构 体 
people. printSchema( ) ; 


// root 
// |-- age: long (nullable = true) 
ZU —— name: string (nullable = true) 


// 使 用 DataFrame 创建 临时 视图 
people. createOrReplaceTempView( " people" ) ; 


//SQL 语句 可 以 通过 使 用 spark 提供 的 sql 方法 运行 
Dataset < Row > namesDF = spark. sql( "SELECT name FROM people WHERE age BETWEEN 13 


AND 19" ) ; 
namesDF. show( ) ; 
2 
//| namel 
A 
// lJustin| 
7 


// 或 者 ,RDDI[ String] 存储 每 一 个 字符 串 的 JSON 对 象 ,通过 加 载 JSON 数据 集 创 建 DataFrame 
List < String > jsonData = Arrays. asList( 

"|\"name\":\"Yin\",\"address\" :| \"city\":\"Columbus\",\"state\" :\"Ohio\"}}"); 
JavaRDD < String > anotherPeopleRDD = 

new JavaSparkContext( spark. sparkContext( ) ) . parallelize( jsonData) ; 


Dataset anotherPeople = spark. read( ). json( anotherPeopleRDD ) ; 
anotherPeople. show( ) ; 


8 
| address |name| 
2 
//1[ Columbus,Ohio]| Yinl 
YF 


Spark SQL 操作 HBase 示例 


Spark SQL 文 持 读 取 多 种 数据 来 源 的 数据 ,支持 从 HBase 中 读 取 数据 ， 本 节 将 实现 从 以 
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Java 的 方式 ， 通 过 Spark 连接 hbaseTest 进行 业务 处 理 的 案例 : 查询 出 HBase 中 满足 设 定 的 起 
台 行 至 终止 行 条 件 的 用 户 ， 统 计 各 个 级 别 用 户 的 计数 。 
本 节 Spark SQL 操作 HBase 案例 中 ，HBase 数据 库 表 名 是 “usertable”; info 是 列 族 ， 是 
列 的 集合 ， 一 个 列 族 中 包含 多 个 列 ，info 列 族 包括 级 别 代 码 列 〈levelCode) ， 以 及 其 他 的 列 ; 
Row Key 是 行 键 ， 记 录 每 行 的 行 ID 值 。 


Column Family ( 列 族 info) 
Row Key ( 行 键 ) 
levelCode ( 级 别 代码 ) 其 他 列 
195861 — 1035177490 levelCodel se 
195861 — 1072173147 levelCoden 


Spark SQL 操作 HBase 案例 具体 实现 步骤 : 

1) 初始 化 sparkContext， 通 过 jars 参数 加 载 Hbase 的 JAR 文件 。 
2) 创建 HBase 的 Configuration 配置 文件 。 

3) 设置 Hbase 的 查询 条 件 。 

Hbase Scan 的 相关 操作 说 明 : 

e setStartRow (byte[ ] startRow) : 设置 Scan 的 开始 行 。 

e setStopRow (byte[ ] stopRow) : 设置 Scan 的 结束 行 。 

e addColumn (byte[ ] family, byte[ ] qualifier) : 指定 扫描 的 列 。 
e addFamily (byte[ ] family) : 指定 扫描 的 列 族 。 

4) 设置 读 取 的 Hbase 表 名 。 

5) 获取 获得 hbase 查询 结果 Result。 

6) 从 查询 结果 result 中 取出 用 户 的 等 级 ， 每 次 计数 1 次 。 

7) 使 用 reduceByKey 进行 计数 累加 。 

8) 打印 最 终结 

Spark SQL 操作 HBase 案例 运行 环境 准备 : 

。 部 署 Hadoop 集群 。 
e 部 署 Hbase 集群 。 
。 部 署 Spark 集群 。 
1. 代码 实 现 


package com. dt. spark. streaming; 


import org. apache. commons. logging. Log; 

import org. apache. commons. logging. LogFactory; 
import org. apache. hadoop. conf. Configuration; 

import org. apache. hadoop. hbase. HBaseConfiguration ; 
import org. apache. hadoop. hbase. client. Result; 
import org. apache. hadoop. hbase. client. Scan; 


import org. apache. hadoop. hbase. io. ImmutableBytesW ritable; 


© 


Import org. 
Import org. 
Import org. 
Import org. 
Import org. 


Import org. 
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apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


hadoop. hbase. mapreduce. TableInputFormat ; 
hadoop. hbase. util. Base64; 

hadoop. hbase. util. Bytes; 

spark. api. java. JavaPairRDD ; 

spark. api. java. JavaSparkContext; 


spark. api. java. function. Function2 ; 


import org. apache. spark. api. java. function. PairFunction ; 


import scala. Tuple2 ; 


Import Java. 
Import Java. 
Import Java. 
Import Java. 


Import Java. 


i0. ByteArrayOutputStream ; 


io. DataOutputStream ; 


io. IOException ; 


io. Serializable; 


util. List; 


public classHbaseTest implements Serializable | 


public Log log = LogFactory. getLog( HbaseTest. class ) ; 


static StringconvertScanToString( Scan scan ) throws IOException | 


ByteArrayOutputStream out = new ByteArrayOutputStream( ) ; 


DataOutputStream dos = new DataOutputStream( out ) ; 


scan. Write( dos ) ; 


return Base64. encodeBytes( out. toByteArray( ) ) ; 


public void start( ) | 
// 初 始 化 sparkContext,Spark SQL 连接 Hbase 需 加 载 HBase 的 JAR 包 ， 
// 耕 则 会 报 unread block data 异常 


JavaSparkContext sc = new JavaSparkContext( "spark://Master:7077" ," hbaseTest", 


0. 94. 6. jar 


0 


"/usr/local/spark -1.6.0" ， 


new String [ | | " target/ndspark. jar" ," target \ \ dependency \ \ hbase — 


// 使 用 HBaseConfiguration. create( ) 生 成 Configuration 

// 必 须 在 项 目 classpath 下 放 上 Hadoop 及 HBase 的 配置 文件 
Configuration conf = HBaseConfiguration. create( ) ; 

// 设 置 查询 条 件 ,这 里 的 值 返回 用 户 的 等 级 

Scan scan = new Scan( ) ; 

scan. setStartRow( Bytes. toBytes( "195861 - 1035177490" ) ) ; 
scan. setStopRow( Bytes. toBytes( " 195861 - 1072173147" ) ) ; 
scan. addFamily(Bytes. toBytes("info" ) ) ; 
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scan. addColumn( Bytes. toBytes( " info" ) ,Bytes. toBytes( " levelCode" ) ) ; 


try | 
// 需 要 读 取 的 HBase 表 名 > 


StringtableName = " usertable" ; 
conf set( TableInputFormat. INPUT_TABLE ,tableName ) ; 
conf set( TableInputFormat. SCAN ,convertScanToString(scan) ) ; 


// 获 得 HBase 查询 结果 Result 
JavaPairRDD < ImmutableBytesWritable ,Result > hBaseRDD = sc. newAPIHadoopRDD ( conf, 
TableInputFormat. class ,ImmutableBytesWritable. class, 


Result. class ) ; 


// 从 Result 中 取出 用 户 的 等 级 ,并 且 每 一 个 算 一 次 
JavaPairRDD < Integer, Integer > levels =hBaseRDD. map( 


newPairFunction <Tuple2 <ImmutableBytesWritable ,Result > ,Integer,Integer > ( ) | 
@ Override 
publicTuple2 < Integer, Integer > call( 
Tuple2 < ImmutableBytes Writable, Result > immutableBytesWritableResultTuple2 ) 
throws Exception | 
byte[l ] o = immutableBytes WritableResultTuple2. _2( ). getValue( 
Bytes. toBytes( " info" ) , Bytes. toBytes( " levelCode" ) ) ; 
if(o ! =null) | 
return newTuple2 < Integer, Integer > ( Bytes. toImt(o) ,1 ) ; 


| 


return null; 


人 二 


/数据 累加 
JavaPairRDD < Integer, Integer > counts = levels. reduceByKey(new Function2 < Integer， 
Integer, Integer > ( ) | 
public Integer call( Integer il , Integer i2) | 


return i] + i2; 


1); 


// 打 印 出 最 终结 
List < Tuple2 < Integer, Integer >> output = counts. collect( ) ; 
for( Tuple2 tuple :output) | 

System. out. println(tuple. 1 + ":" + tuple. _2); 
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| catch( Exception e) | 


log. warn( e); 


/kk 
x* Spark 分 布 式 计算 时 ,如果 类 计算 没 写 在 main 里 面 ,实现 的 类 必须 继承 Serializable 接口 , 即 
HbaseTest 类 必须 继承 序列 化 接口 , HbaseTest implements Serializable 否则 会 报 Task not serializ- 
able: java. io. NotSerializableException 异常 


*/ 


public static void main( String[ | args ) throws InterruptedException | 
newHbaseTest( ). start( ) ; 
System. exit(0); 
| 


2. 输出 结果 
将 上 述 代 码 打 成 JAR 包 ， 通 过 SparkSubmit 向 Spark 集群 提交 运行 ， 输 出 结果 如 下 : 


0:28528 
11 :708 
4:28656 
2:36315 
6:23848 
8:19802 
10:6913 
9:15988 
3:31950 
1:38872 
7:21600 
5:27190 
12:17 


Spark SQL 作为 Spark 大 数据 计算 生态 中 一 个 重要 的 子 项 目 ， 主 要 用 来 操作 数据 库 ， 它 
提供 了 很 多 方法 来 操作 不 同 的 数据 库 ， 使 得 其 可 操作 的 数据 来 源 变 得 非常 广泛 。Spark SQL 
提供 的 大 量 的 API 不 仅 易 于 使 用 ， 而 且 功 能 强大 ， 不 仅 可 以 操作 Hive、HBase 等 基于 HDFS 
(Hadoop Distributed File System) 的 数据 库 ， 而 且 可 以 操作 MySQL、Oracle 等 传统 的 关系 型 
数据 库 ， 还 可 以 操作 MongoDB 等 NoSQL 非 关 系 型 数据 库 ， 甚 至 可 以 操作 Kafka 分 布 式 消息 
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系统 。Spark SQL 支持 多 语言 编程 ， 包 括 Java、Scala、Python 及 R。 

以 下 我 们 采用 Spark SQL 分 别 操作 MySQL、MongoDB 数据 库 的 内 容 ， 采 用 2. 10.4 版 本 
的 Scala 语言 开发 ，Spark 版 本 是 1.6.1, 采用 的 操作 系统 是 64 位 Ubuntu kylin - 15. 10 - 
desktop ， 集 成 开发 环境 是 Intelli] IDEA。 > 


Spark SQL 操作 MySQL 示例 


MySQL 作为 一 种 影响 巨大 的 关系 型 数据 库 ， 在 企业 中 广泛 使 用 。 本 示例 为 在 Ubuntu 系 
统 上 安装 MySQL 数据 库 ， 并 且 以 其 作为 数据 来 源 用 Spark SQL 操作 其 数据 。 


“5 安装 并 启动 MySQL 


在 Ubuntu 系统 上 安装 并 启动 MySQL 数据 库 的 方法 ， 这 里 将 MySQL 服务 器 端 及 MySQL 
客户 端 都 安装 在 本 地 。 其 过 程 如 下 : 

1. 安装 MySQL 服务 器 端 

在 Ubuntu 操作 系统 的 命令 终端 输入 apt - get 命令 ， 进 行 MySQL 的 服务 器 端 安装 ， 如 下 
所 示 : 


> apt — get install mysql - server 


安装 过 程 如 下 : 
root@UbuntuDevelopment:~# apt-get install mysql-server 
Reading package lists... Done 
Building dependency tree 
Reading state information... Done 
The following extra packages will be installed: 
libhtml-template-perl mysql-server-5.6 mysql-server-core-5.6 
Suggested packages: 
libipc-sharedcache-perl mailx tinyca 
The following NEW packages will be installed: 
libhtml-template-perl mysql-server mysql-server-5.6 mysql-server-core-5.6 
9 upgraded, 4 newly installed, © to remove and 234 not upgraded. 
Need to get 16.3 MB of archives. 
After this operation, 79.2 MB of additional disk space will be used. 
Do you want to continue? [Y/n] 


然后 输入 “Y”，MySQL 服务 器 端 安装 完成 。 
2. 确认 MySQL 服务 器 端 是 否 启动 
用 netstat 命令 查看 MySQL 的 服务 器 端 是 否 启动 ， 命 令 如 下 : 


> netstat — tap | grep mysql 


若 查 看 结果 如 下 所 示 ， 则 表明 MySQL 的 服务 器 端 安装 并 启动 成 功 : 
root@UbuntuDevelopment:~# netstat -tap | grep mysql 和 
tcp 9 9 localhost:mysql 克 克 
root@UbuntuDevelopment:~# 

3. 安装 MySQL 客户 端 

用 apt - get 命令 执行 MySQL 的 客户 端的 安装 ， 如 下 所 示 : 


LISTEN 4525/mysqld 
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> apt — get install mysql - client 


安装 过 程 如 下 : 
root@UbuntuDevelopment: /usr/software/mysql# apt-get install mysql-client 
Reading package lists... Done 
Building dependency tree 
Reading state information... Done 
The following extra packages will be installed: 
Libaiol libdbd-mysql-perl libdbi-perl libmysqlclient18 libterm-readkey-perl 
Suggested packages: 
libmldbm-perl libnet-daemon-perl libsql-statement-perl 
The following NEW packages will be installed: 
Libaiol libdbd-mysql-perl libdbi-perl libmysqlclient18 libterm-readkey-perl 
mysql-common 
© upgraded, 9 newly installed, © to remove and 235 not upgraded. 
Need to get 16.8 MB of archives. 
After this operation, 74.9 MB of additional disk space will be used. 
Do you want to continue? [Y/n] 


输入 “Y”，MySQL 客户 端 安装 会 成 。 

4. 启动 MySQL 的 客户 并 

在 命令 终端 用 mysql 的 命令 启动 客户 端 ， 如 下 : 
>mysql — h127. 0. 0.1 一 u root 一 Pp 六 六 米 米 米 六 


其 中 -h 表示 MySQL 服务 端 主机 ，-u 表示 MySQL 的 用 户 ，-p 表示 用 户 的 密码 。 


Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 1 to server version: 4.0.16 — standard 
Type help; or \h for help. Type \¢ to clear the buffer. 
mysql > 


出 现 “mysql > ”提示 符 ， 说 明 安装 已 经 成 功 。 


“5 准备 数据 表 
1. 建立 数据 库 
在 MySQL 中 建立 一 个 数据 库 MyDB, 命令 如 下 所 示 : 


CREATE DATABASEMyDB ; 
SHOW DATABASES ; 


结果 如 下 所 示 : 


mysql> create database MyDB; 
Query OK, 1 row affected (6.69 sec) 


mysql> show databases; 


| information_schema | 
| MyDB | 
| mysql | 
| performance_schema | 


4 rows in set (0.860 sec) 


mysql> 目 
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2. 建立 表 
在 数据 库 MyDB 中 建立 表 StudentInfo， 表 的 字段 如 表 3-1 所 示 。 
表 3-1 StudentInfo 的 字段 及 其 含义 


字段 名 类 “型 含义 > 
ID int (20) 学 号 
Name varchar (20) 姓名 
Gender char (1) 性 别 
birthday date 出 生日 期 
命令 如 下 : 
> USE MyDB ; 


> createtable StudentInfo( 
ID int(20),， 

Name varchar(20) ， 
Gender char(1) ， 

birthday date 

)8 


3. 插入 数据 
用 INSERT INTO 命令 向 表 StudentInfo 中 搬入 5 条 数据 ， 如 表 3-2 所 示 。 


表 3-2 ”StudentInfo 数据 


学 号 姓 名 性 别 出 生日 期 

1 A F 1996 -09 -12 

2 B M 1995 - 12-23 

3 C M 1996 -10 -29 

4 D M 1995 -02-25 

5 E F 1997 -06 -06 
MySQL 命令 如 下 : 


> Insert into StudentInfo values(1, “A“, “F"“, “1996 -09-12"); 
> Insert into StudentInfo values(2, “B“, “M“, “1995 -12-23“) ; 
> Insert into StudentInfo values(3, “C“,“M”,” 1996 -10-29"); 
> Insert into StudentInfo values(4," D“,“M",” 1995 -02-25 “); 
> Insert into StudentInfo values(5,” E“,“F"“,” 1997 -06 -06“) ; 


4. 查看 数据 
查看 表 StudentInfo 中 的 数据 ， 命 令 如 下 : 


SELECT * FROMStudentInfo ; 


结果 如 下 : 
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mysql> select * from StudentInfo; 


+------ +------ +-------- +------------ 十 
| ID | name | gender | birthday | 
+------ +------ +-------- +------------ 十 
| 1 | A | F | 1996-69-12 | 
| 2 | B | NM | 1995-12-23 | 
| 3 | 人 < | NM | 1996-16-29 | 
| 4| D | | 1995-62-25 | 
| 5| E |F | 1997-66-66 | 
+------ +------ +-------- +------------ 十 
5 rows in set (6.66 sec) 


5. 创建 第 二 个 表 
再 在 数据 库 MyDB 中 创建 第 二 个 表 Score， 其 表 结 构 如 表 3-3 所 示 。 
表 3-3 Score 的 字段 及 其 含义 


字 段 名 类 型 合 义 
ID int (20) 学 号 
Name varchar (20) 姓名 
Score float (10) 分 数 


在 MyDB 中 创建 表 Score 的 命令 如 下 : 


Createtable Score( 
ID int(20),， 

name varchar(20 ) ， 
score float( 10) 

) 


6. 插入 数据 
向 表 Score 插入 的 数据 ， 如 表 3-4 所 示 。 
表 3-4 Score 数据 


学 号 姓 名 分 数 
1 A 91 
2 B 87 
5 E 88 
9 H 89 
10 Pp 97 


向 表 Score 中 插入 数据 的 MySQl 命令 如 下 : 


> Insert into Score values(1,"A“,91); 
> Insert into Score values(2，B“,87) ; 
> Insert into Score values(5,"E" ,88 ) ; 
> Insert into Score values(9,“H “ ,89); 


> Insert into Score values( 10,“P “ ,97); 


7. 查看 数据 
查看 表 Score 中 的 数据 ， 命 令 如 下 : 


Spark SQL 操作 多 种 数据 源 


SELECT * FROM Score; 


mysql> select * from Score; 


+------ +------ +------- 二 
| ID | name | score | 
+------ +------ +------- + > 
| 1 | A | 91 | 
| 2 | B | 87 | 
| 5| E | 88 | 
| 9| H | 89 | 
| 19 | P | 97 | 
+------ +------ +------- 十 


5 rows in set (6.66 sec) 


操作 MySQL 表 


用 Spark SQL 操作 MySQL 数据 库 的 表 需 要 加 载 mysql - connector -java 的 JAR 包 mysql - 
connector -java -S. 1. 21. jar。 这 个 JAR 包 是 Spark 连接 MySQL 的 数据 库 驱 动 包 ， 如 已 经 下 
载 ， 可 以 把 该 JAR 包 添 加 到 项 目的 Libraries 中 ; 车 还 没有 下 载 这 个 包 ， 可 以 将 mySQL - con- 
nector -~ java 的 依赖 关系 配置 到 pom - xml 中 ，pom. xml 是 Naven 的 Jar 依赖 关系 管理 配置 文 
件 ， 可 通过 pom. xml 自动 从 网 上 下 载 这 个 JAR 包 。 在 pom. xml 文件 中 添加 MySQL 的 JAR 包 
依赖 如 下 操作 : 


< dependency > 

< groupld > mysql < /groupId > 

< artifactld > mysql - connector -java < /artifactld > 
<version >5. 1. 33 < /version > 


</dependency > 
程序 需要 导入 的 类 如 下 : 


import java. sql. | Connection, DriverManager, Statement | 

import org. apache. spark. sql. | DataFrameReader, Row,SQLContext} 
import org. apache. spark. sql. types. | DataTypes, StructField, StructType! 
import org. apache. spark. | SparkConf, SparkContext!} 


import scala. collection. mutable. ArrayBuffer 


1. 主 程序 及 相关 代码 
在 项 日 中 新 建 Object， 名 字 是 SparkSQLBookMysql，Spark 从 MySQL 数据 库 中 读 取 学 生 
言 息 表 、 分 数 表 的 信息 ， 并 进行 相关 的 关联 查询 。 主 程序 如 下 : 


def main(args: Array[ String] ) | 
val conf = newSparkConf( ). setAppName( " SparkSQLMysql" ) 
conf setMaster(" spark ://localhost:7077" ) // 程 序 在 Spark 集群 运行 , 非 本 地 运行 
//. setMaster( "local[l * ]") 
val sc = newSparkContext( conf) 


sc. setLogLevel(" WARN" ) 
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val sqlContext = new SQLContext( sc) 


//jdbe 的 JAR 包 可 以 放 在 Spark 的 library 目录 中 ,也 可 以 在 用 SparkSubmit 提交 时 指定 JAR 
包 的 路 径 

// 使 用 的 JAR 包 是 mysql - connector -java -5. 1.21. jar 

val ip ="127. 0.0.1" 

val port = "3306" 

var databaseName =" MyDB" /数据 库 名 

var userName = "ioot" // 用 户 名 

var password ="123456" // 密 人 码 

var ul = "jdbe:mysql://" +ip+":" +port+"/" +databaseName 


var studentInfoTable = " StudentInfo" // 学 生 信 息 表 
var scoreTable = "Score" // 分 数 表 


val mysqlDataFrameReader = sqlContext. read. format( " jdbc" ) 
. option《( "url" ，ul) // 数 据 库 的 jdbce 链接 地 址 
. option( " driver" , "com. mysql. jdbe. Driver" ) // 驱 动 
. option( "user" , userName) 


. option( " password" , password ) 


mysqlDataFrameReader. option( " dbtable" , studentInfoTable) 
val studentInfoDataFrame = mysqlDataFrameReader. load ( ) // 基 于 表 StudentInfo 生成 的 Dat- 


aFrame 


// 给 表 studentInfoDataFrame 赋予 StructType ,描述 表 的 元 数据 ,例如 数据 类 型 
val studentInfoStructed = setStudentInfoStructType(sqlContext ,studentInfoDataFrame) 
studentInfoStructed. show( ) 
studentInfoStructed. select( "ID" ," Name" ). show( ) 


mysqlDataFrameReader. option( " dbtable" , scoreTable) 
val scoreDataFrame = mysqlDataFrameReader. load( ) // 基 于 表 Score 生成 的 DataFrame 


// 给 表 scoreDataFrame 赋予 StructType ,描述 表 的 元 数据 ,例如 数据 类 型 
val scoreStructed = setScoreStructType( sqlContext, scoreDataFrame ) 
scoreStructed. show( ) 


scoreStructed. select(" ID" ," Score" ). show( ) 


studentGenderCount( studentInfoStructed ) 
studentRandomSplit( studentInfoStructed ) 
joinTables( sc , studentInfoStructed ，scoreStructed ) A/ 两 个 表 做 inner join 操作 


fileterScore( scoreStructed ) 


上 :让 于 贡 和 Sbark SQL 操作 多 种 数据 源 


sortScore( scoreStructed ) 
scoreTopN( sqlContext , scoreStructed ) 
getMaxScore( scoreStructed ) 


getAverageScore( scoreStructed ) > 


increaseScore( sqlContext ,scoreStructed ) 
insertIntoStudentInfo( sqlContext ) 
studentInfoDataFrame. show( ) 


sc. stop( ) 
| 


代码 说 明 : 

1 ) setStudentInfoStructType 方法 : 第 一 个 参数 传人 sqlContext， 第 二 个 参数 传人 studentIn- 
foDataFrame， 将 studentInfoDataFrame 进行 map 转换 为 Rows 格式 ， 通 过 getStudentInfoStruct- 
Type 构建 学 后 信息 的 schema; 然后 通过 SQLContext 的 createDataFrame (row，schema) 方法 
创建 DataFrame， 即 结构 化 的 学 生 信息 DataFrame (studentInfoStructed ) ， 基 于 学 生 信 息 Dat- 
aFrame (studentInfoStructed ) 可 以 统计 学 生 ID 、 学 生 姓 名 ; 性 别 分 别 为 男 、 女 的 学 生 数 量 等 
信息 。 

2 ) setScoreStructType 方法 : 第 一 个 参数 传人 sqlContext， 第 二 个 参数 传人 scoreDat- 
aFrame， 将 scoreDataFrame 进行 map 转换 为 Rows 格式 ， 通 过 getScoreSchema 构建 分 数 信息 的 
schema; 然后 通过 SQLContext 的 createDataFrame (row，schema) 方法 创建 DataFrame ， 即 结 
构 化 的 分 数 信息 DataFrame (scoreStructed ) ， 基 于 分 数 信息 DataFrame ( scoreStructed) 可 以 
统计 分 数 大 于 90 分 的 信息 ; 分 数 从 高 到 低 排 名 查询 ; 查询 分 数 最 高 的 学 生 的 ID 和 姓名 ; 分 
数 小 于 90 的 分 数 加 5 分 等 操作 。 


/ 米 米 
* 构建 studentInfoStructType ,用 于 描述 loadSourceDataFrame 的 元 数据 
* @ return 
*/ 
def getStudentInfoStructType( ) :StructType = | 
val studentInfoStructFields = newArrayBuffer[ StructField ] ( ) 
studentInfoStructFields. + = (DataTypes. createStructField ( " ID", DataTypes. IntegerType, 


true ) ) 

studentInfoStructFields. += (DataTypes. createStructField ( " Name", DataTypes. StringType, 
true ) ) 

studentInfoStructFields. += (DataTypes. createStructField ( " Gender" , DataTypes. StringType, 
true ) ) 

studentInfoStructFields. += (DataTypes. createStructField ( " Birthday" , DataTypes. DateType, 
true ) ) 


StructType( studentInfoStructFields ) 
| 
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/沙沙 
* 构建 scoreStructFields ,用 于 描述 loadSourceDataFrame 的 元 数据 
* @ return 


*/ 


def getScoreSchema( ) :StructType = | 
val scoreStructFields = new ArrayBuffer[ StructField | ( ) 
scoreStructFields. += (DataTypes. createStructField( "ID", DataTypes. IntegerType, true)) 
scoreStructFields. += (DataTypes. createStructField( " Name" , DataTypes. StringType, true) ) 


scoreStructFields. += (DataTypes. createStructField( " Score" , DataTypes. DoubleType, true)) 
StructType( scoreStructFields) 


| 


/六 米 
* 给 StudentInfo 表 添 加 元 数据 信息 
* @ paramsqlContext 


* @ paramdataFrame 
* @ return 
*/ 
def setStudentInfoStructType( sqlContext: SQLContext, dataFrame: DataFrame): DataFrame = 
val rdd = dataFrame. map | x=> 
Row( x. getInt(0), x. getString(1), x. getString(2), x. getDate(3)) 
| 
sqlContext. createDataFrame( rdd, getStudentInfoStructType) 


| 


/水 水 
* 给 score 表 添 加 元 数据 信息 


* @ paramsqlContext 


* @ paramdataFrame 
* @ return 
*/ 
def setScoreStructType( sqlContext: SQLContext, dataFrame: DataFrame) : DataFrame = 
val rdd = dataFrame. map | x=> 
Row( x. getInt(0), x. getString(1), x. getDouble(2)) 
| 


sqlContext. createDataFrame(rdd, getScoreSchema( ) ) 


| 
代码 说 明 
1 ) getStudentInfoStructType 方法 构建 学 生 信 息 的 schema: 创建 一 个 元 素 类 型 为 StructField 
的 ArrayBuffer 数组 studentInfoStructFields ， 其 中 StructField 是 一 个 case class，case class 第 一 
个 成 员 变 量 是 名 称 name， 第 二 个 成 员 变 量 是 数据 类 型 dataType， 第 三 个 成 员 变量 是 nullable， 


上: 让 二: 靖 和 Sbark SQL 操作 多 种 数据 源 


是 否 允 许字 段 为 空 值 ; 第 四 个 成 员 变 量 是 metadata， 是 该 字段 的 元 数据 ， 如 果 列 的 内 容 未 被 
修改 ， 在 selection 时 元 数据 应 保存 ， 元 数据 类 型 如 metadata. jsonValue 等 ，metadata 默认 设置 
为 Metadata. empty。 在 studentInfoStructFields 中 依次 加 入 (ID、 整 型 、 允 许 空 )、( 姓 名 、 字 
符 串 型 、 人 允许 空 ) 、( 性 别 、 字 符 串 型 、 允 许 空 ) (生日 、 字 符 串 型 、 允 许 空 ) 的 字段 ， 返 回 
StructType (studentInfoStructFields ) 结构 化 schema。 

2 ) getScoreSchema 方法 构建 分 数 信息 的 schema: 创建 一 个 元 素 类 型 为 StructField 的 Ar- 
rayBuffer 数组 scoreStructFields ， 在 scoreStructFields 中 依次 加 入 (ID 、 整 型 、 人 允许 空 ) 、( 姓 
名 、 字 符 串 型 、 人 允许 空 ) 、( 分数、 浮上 点 数 型 、 人 允许 空 ) 的 字段 ， 返 回 StructType ( score- 
StructFields) 结构 化 schema。 

写 完 代码 后 ,用 IntelliJ IDEA 将 其 打 成 JAR 包 ，JAR 包 的 名 字 是 SparkSQLBOOK. jar， 写 
脚本 提交 给 Spark 运行 。 具 体 的 写 脚本 和 打包 过 程 在 此 不 再 评述 ， 程 序 提交 的 脚本 如 下 : 


#1 /bin/bash 
./spark — submit - — class SparkSQLBookMysql - - master spark://127.0.0.1:7077 SparkSQL- 
BOOK. jar 


提交 程序 时 把 该 脚本 文件 放 到 Spark 的 bin 目录 下 。 

2. 相关 操作 示例 

下 面 是 查询 相关 的 系列 示例 。 

1) 示例 一 : 查询 表 StudentInfo 和 Score 中 的 内 容 。 

本 示例 用 于 查询 表 StudentInfo 和 Score 中 的 内 容 ， 代 人 码 如 下 : 


/ 米 米 
显示 表 的 内 容 
@ param sc 
@ parammysqlOptions 
*/ 
def showTables( sc: SparkContext, mysqlOptions: DataFrameReader) : Unit = | 
val sourceDataFrame = mysqlOptions. load( ) 


sourceDataFrame. show( ) 


| 


输出 结果 如 下 所 示 。 
16/94/24 22:59:26 INFO Taskscheduler] 16/64/24 22:59:20 INFO DAGScheduler: 
16/94/24 22:59:26 INFO DAGScheduler: 16/84/24 22:59:29 INFO Taskscheduler 
16/964/24 22:59:26 INFO DAGScheduler: 16/64/24 22:59:26 INFO DAGScheduler: 
+---+----+------ +---------- 十 +---+----+----- 十 
| IDIName|Gender| Birthday| | IDIName|Scorel| 
+---+----+------ +---------- 十 t---+----+----- + 
| 1| Al F|1996-69-12| | 1| Al 91.6| 
| 2| BI M|1995-12-23| | 2| BI| 87.6| 
| 3 < MI1996-16-291 | 5| El 88.6| 
| 4| 5| M|1995-62-25| | 9| HI 89.6| 
| 5| El F|1997-866-86| | 16| P| 97.8| 
+---+----+------ +---------- 十 +---+----+----- + 
16/94/24 22:59:26 INFO SparkContext: 16/64/24 22:59:20 INFO SparkContext: 
16/964/24 22:59:26 INFO DAGScheduler: 16/64/24 22:59:26 INFO DAGScheduler: 


StudentInfo 输出 结果 Score 输出 结果 


© 
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2) 示例 二 : Select 部 分 字段 。 


studentInfoStructed. select( "ID" ,"Name" ). show( ) // 选 择 ID,Name 
scoreInfoStructed. select( " ID" ," Score" ). show( ) // 选 择 ID ,Score 
结果 如 下 : 


16/84/24 22:59:29 INFO DAGScheduler: 


16/64/24 22:59:26 INFO DAGScheduler: 16/94/24.122:59;2L INFO DACSCheduler: 


16/64/24 22:59:21 INFO DAGScheduler: 


+---+----+ 
| ID|Name| Dy + 
二 | ID|Scorel 
| 1| Al i 
| 2| BI | 1| 91.9| 
L 污 h. 下 | | 2| 87.9| 
| 4| DI| | 5| 88.6| 
| 5| El | 9| 89.9| 
+---+----+ | 18| 97.6| 

+---+----- + 


16/64/24 22:59:26 INFO SparkContext: 
16/84/24 22:59:28 INFO DAGScheduler: 
16/64/24 22:59:26 INFO DAGScheduler: 


选择 ID ，Name 结果 选择 ID ，Score 结果 


3) 示例 三 : 统计 男女 数量 。 


16/64/24 22:59:21 INFO SparkContext: 
16/64/24 22:59:21 INFO DAGScheduler: 


/六 六 
+ 统计 男女 数量 
六 
* @ paramstudentInfoStructed 
*/ 
def studentGenderCount( studentInfoStructed: DataFrame) : Unit = | 
studentInfoStructed. groupBy( studentInfoStructed( " Gender" ) ). count( ). show( ) 


| 


程序 输出 结果 如 下 : 
+------ +----- 十 
|Gender |count| 
+------ +----- 十 
| F| 2| 
| M| 3] 
+------ +----- 十 


4) 示例 四 : 随机 分 成 两 组 。 


/ 米 米 
* 随机 分 成 两 组 
* 在 数据 挖掘 中 把 数据 分 成 两 组 ,一 组 用 作 训 练 数据 , 另 一 组 用 作 测 试 数据 
* @ paramscoreStructed 
*/ 
def studentRandomSplit( scoreStructed: DataFrame): Unit = | 
val weights = Array| Double | (0.7 ,0.3) 


上 :让 二: 靖 沁 Sbark SQL 操作 多 种 数据 源 


val splited = scoreStructed. randomSplit( weights ) 
splited( 0). show( ) 
splited( 1). show( ) 


] © 


程序 输出 结果 如 下 : 
+---+----+------ +---------- + 
| IDINamelGender| Birthday| 
+---+----+------ +---------- 十 
| 3| dal M|1996-16-29| 
| 4| Db| M|1995-62-25| 
| 5| El F11997-66-661 
+---+----+------ +---------- + 
+---+----+------ +---------- + 
| IDIName|Gender| Birthday| 
+---+----+------ +---------- + 
| 1| Al F11996-69-121 
| 2| Bl M|1995-12-23| 
+---+----+------ +---------- 十 


5) 示例 五 : 对 表 进 行 inner join。 


/ 米 米 
* 对 表 进 行 inner jion 
六 
* @ param sc 
* @ param studentInfoDataFrame 
* @ paramscoreDataFrame 
*/ 
def joinTables ( se: SparkContext, studentInfoDataFrame: DataFrame, scoreDataFrame: DataFrame ) : 
Unit = | 
val joinColumns = " ID" 
val joinedDataFreme = studentInfoDataFrame. join( scoreDataFrame, joinColumns) 


joinedDataFreme. show( ) 


| 


程序 输出 结果 如 下 : 
+---+----+------ +---------- +----+----- 二 
| IDInamelgender| birthday|Name|Scorel 
+---+----+------ +---------- +----+----- 十 
| 1| Al F|1996-69-12| ”Al 91.6| 
| 2| BI M|1995-12-23|  B| 87.6| 
| 5| El F|1997-66-66|  E| 88.6| 
+---+----+------ +---------- +----+----- 十 


6) 示例 六 : 取出 Score 大 于 90 分 的 信息 。 


[水 水 
* 取出 Score 大 于 90 分 的 信息 
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* @ paramscoreStructed 
*/ 
def fileterScore( scoreStructed: DataFrame) : Unit = | 


scoreStructed. filter( scoreStructed( "Score" ) > =90). show( ) 


| 


程序 输出 结果 如 下 : 
+---+----+----- + 
| ID|Name|Scorel| 
+---+----+----- 十 
Lr Al 91.9| 
| 16| P| 97.61 
+---+----+----- + 


7) 示例 七 : 分 数 从 高 到 低 排 名 。 


/*#* 分 数 从 高 到 低 排名 
* @ paramscoreStructed 
*/ 
def sortScore( scoreStructed :DataFrame) : Unit = | 


scoreStructed. sort( scoreStructed( " Score" ). desc). show( ) 


| 


程序 输出 结果 如 下 : 
+---+----+----- 十 
| ID|Name|Scorel| 
+---+----+----- + 
| 16| P| 97.9| 
| 1| Al 91.6| 
| 9| H| 89.6| 
| 5| El 88.6| 
| 2| B| 87.6| 
+---+----+----- + 


8) 示例 八 : 统计 分 数 的 top 3。 


/六 六 
+ 统计 分 数 的 top 3 
* @ paramsqlContext 
* @ paramscoreStructed 
*/ 

def scoreTopN( sqlContext: SQLContext, scoreStructed: DataFrame): Unit = | 

val topn = scoreStructed. sort( scoreStructed( " Score" ). desc). take(3) 
val rdd = sqlContext. sparkContext. makeRDD( topn) 

sqlContext. createDataFrame( rdd, getScoreSchema). show( ) 


| 
程序 输出 结果 如 下 : 
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昌 二 二 二 省 二 二 二 二 和 + 
| ID|Name|Scorel| 
+---+----+----- 十 
| 16| P| 97.6| 
| 1| Al 91.6| 
| 9| HI 89.6| 
+---+----+----- 十 


9) 示例 九 : 查询 最 高 


/水 水 
* 查询 分 数 最 高 的 Student 的 ID 和 姓名 
* @ paramscoreStructed 
*/ 
def getMaxScore( scoreStructed: DataFrame) : Unit = | 
scoreStructed. agg(Map("Score" -> "max" ) ). show( ) 


| 


程序 输出 结果 如 下 : 
+---------- 十 
Imax(Score)| 
+---------- 十 
| 97.91 
+---------- + 


10) 示例 十 : 求 平均 分 数 。 


/沙洲 
* 求 平均 分 数 
六 
* @ paramscoreStructed 
*/ 
def getAverageScore( scoreStructed: DataFrame) : Unit = | 
scoreStructed. agg(Map("Score" -> "avg" ) ). show( ) 


| 


程序 输出 结果 如 下 : 
+---------- 十 
|avg(Score)1 
+---------- 十 
| 96.4| 
+---------- 十 


11) 示例 十 一 : 把 Score 小 于 90 的 分 数 加 5 分 。 


让 法 六 
* 把 Score 小 于 90 的 分 数 加 5 分 
* 
* @ paramsqlContext 
*/ 
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def increaseScore( sqlContext:SQLContext ,scoreStructed : DataFrame) : Unit = | 
val increased = scoreStructed. map(row => | 
val score = row. getDouble(2) 
val incscore = 站 (score < 90) score +5 else score 
Row( row. get(0) row. getString( 1), incscore) 
上) 


sqlContext. createDataFrame( increased, scoreStructed. schema). show( ) 


| 
程序 输出 结果 如 下 : 


+---+----+----- 十 
| ID|Name|Scorel| 


12) 示例 十 二 : 向 表 studentInfo 中 插入 数据 。 


/六 米 

# 向 表 studentInfo 中 插入 数据 
水 
* @ paramsqlContext 
*/ 

def insertIntoStudentInfo( sqlContext: SQLContext) : Unit = | 
val rowlist = new java. util. ArrayList[ Row]( ) 

val dateFormat = new SimpleDateFormat( "yyyy ~ MM -dd" ) 
val dayl = dateFormat. parse( " 1997 -06 -12") 
val day2 = dateFormat. parse( " 1998 -07 -23" ) 
val day3 = dateFormat. parse(" 1994 -12 -12") 


rowlist. add( Row (30,"X","F" ,new java. sql. Date( dayl. getYear,dayl. getMonth ,dayl. getDay) ) ) 
rowlist. add( Row (31,"Y","F" ,new java. sql. Date( day2. getYear,dayl. getMonth ,dayl. getDay) ) ) 
rowlist. add( Row (32,"Z" ,"M" ,new java. sql. Date( day3. getYear, dayl. getMonth ,dayl. getDay) ) ) 


val studentInfoDataframe = sqlContext. createDataFrame( rowlist, getStudentInfoStructType) 


studentInfoDataframe. show( ) 

val connectionProperties = new Properties( ) 

connectionProperties. setProperty( " user" ," root" ) 

connectionProperties. setProperty( " password" ," 123456" ) 
studentInfoDataframe. write. mode( SaveMode. Append). jdbc 


("jdbe:mysql://localhost:3306/ MyDB" ," StudentInfo" ,connectionProperties ) 
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程序 输出 结果 如 下 : 
+---+----+------ +---------- + 
| IDIName|lGender| Birthday| 
+---+----+------ +---------- 于 
| 36| Xx] F|11997-66-64| 
| 31| YI F|11998-66-641| 
| 32| zl MI1994-66-64| 
+---+----+------ +---------- 二 
+---+----+------ +---------- 二 
| IDInamelgender| birthday| 
+---+----+------ +---------- 十 
| 1| Al F|1996-89-12| 
| 2| BI M|1995-12-23| 
| 3| dl M|1996-16-29| 
| 4| DI M|1995-62-25| 
| 5| El F11997-66-661 
| 31| YI| F|11998-66-64| 
| 36| Xx| F|11997-66-64| 
| 32| Zz| M|1994-66-64| 
+---+----+------ +---------- + 


Spark SQL 操作 MongoDB 示例 


MongoDB 作为 一 种 非常 重要 的 非 关系 型 数据 库 ， 弥 补 了 传统 关系 型 数据 库 的 不 足 。 本 
节 介 绍 在 Ubuntu 系统 上 安装 MongoDB 数据 库 ， 并 且 以 MongoDB 作为 数据 来 源 用 SparkSQL 
操作 其 数据 的 方法 。 


和 安装 配置 MongoDB 


安装 配置 MongoDB ， 其 过 程 如 下 : 

1. 访问 官网 并 下 载 MongoDB 

在 Ubuntu 的 浏览 器 中 打开 MongoDB 的 官网 ， 网 址 是 ，https://www. MongoDB. org。 如 图 
3-6 所 示 。 


A GIANT LEAP 


MongoDB 3.2 
MongoDB Cloud Manager [7 


Learn More about MongoDB 3.2 > 


图 3-6 MongoDB 管 网 


通 


有 L。 大 数据 实例 开发 教程 


单 击 Download MongoDB 按钮 (默认 是 3.2 版 本 ) ， 进 入 下 载 页 面 。 
选择 操作 系统 类 型 和 MongoDB。 这 里 选择 的 是 Ubuntu 14. 04 Linux 64 - bit， 如 图 3-7 
所 示 。 


Current Stable Release (3.2.5) 


04/13/2016: | 
二 Windows 内 Linux 


Download Source: | 


Select your distribution from the list or the legacy Linux 64-bit version rf your distribution is unavailable. Keep In mind that this legacy Lint 
may lack the performance optimizations present in targeted builds. 


VERSION: 


Ubuntu 14.04 Linux 64-bit 别 


The binary of this version has been compiled with SSL enabled and dynamically linked. This requires that SSL libraries be installed seperately. S 


PACKAGE MANAGER: 
Instructions for installing with apt 


BINARY: Installation Instructions | All Version Binaries 


出 DOWNLOAD (tgz) https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-ubuntu1464-3.2.5.tgz 


图 3 -7 选择 操作 系统 类 型 
单 击 DOWNLOAD (tgz) 按钮 ， 开 始 下 载 ， 如 图 3 -8 所 示 。 


Select your distribution from the list or the legacy Linux 64-bit version if your distribution is unavailable. Keep in mir 
may lack the performance optimizations present In targeted builds. 


VERSION: 


Ubuntu 14.04 Linux 64-bit v 


The binary of this version has been compiled with SSL enabled and dynamically linked. This requires that SSL libraries b 


PACKAGE MANAGER: 
Instructions for installing with apt 


BINARY: Installation Instructions | All Version Binaries 


山 DOWNLOAD (tgz) https://fastdl.mongodb.org/linux/mongodb-linux-x86 64-ubuntu1464-3.2.5.tgz 


图 3 -8 开始 下 载 


2. 解压 并 安装 MongoDB 
下 载 完 毕 后 ， 用 tar 命令 解压 ， 文 件 解压 到 /usr/software/mongodb 目录 下 。 
配置 环境 变量 。 用 vim 命令 打开 环境 变量 文件 ~/. bashre， 把 解压 后 的 目录 配置 到 文件 
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~/. bashrc 中 ， 如 下 所 示 


export JAVA_HOME=/usr/software/java/jdk1.8.6_73 

export JRE_HOME=${JAVA_HOME}/jre 

export SCALA HOME=/usr/software/scala/scala-2.10.4 

export MONGODB_ HOME=/usr/software/mongodb/mongodb-linux-x86_64-ubuntu1464-3.2.5 


export CLASS_PATH=.:S${JAVA_HOME}/Lib:${JRE_HOME}/1Lib 


export PATH=${MONGODB}/bin:S${SCALA_HOME}/bin:${IJAVA_HOME}/bin:S$PATH 


启动 MongoDB ) 


Mongodb 是 NoSql 数据 库 ， 采 用 文档 存储 的 存储 方式 。Mongodb 支持 的 查询 语言 非常 强 
大 ， 类 似 面向 对 象 的 查询 语言 ， 可 以 实现 关系 数据 库 单 表 查 询 的 大 部 分 功能 ， 支 持 对 数据 建 
立 索 引 。 
Mongodb 的 服务 器 部 署 方式 包括 : 
e MongoDB 单机 服务 器 部 署 : 运行 MongoDB 包 bin 目录 下 的 mongod. exe， 配 置 数据 目录 
及 日 志文 件 ， 即 可 打开 MongoDB 服务 。 
e Mongodb 集群 服务 器 部 署 : Mongodb 集群 部 署 包 括 Replica Set，Sharding，Master - 
Slaver 三 种 方式 。 
Mongodb 的 客户 端 工具 包括 : 
e Mongo Shell 客户 端 用 来 连接 MongoDB 的 JavaScript 接口 ， 用 户 使 用 Mongo Shell 查询 和 
操作 MongoDB 中 的 数据 、 对 MongoDB 进行 管理 。 
e Mongo VUE 工具 提供 一 个 简洁 可 用 的 MongoDB 管理 界面 。 
e Robomongo 是 基于 Shell 的 跨 平 台 MongoDB 可 视 化 工具 。 
e MongoChef 是 可 视 化 的 Mongodb 数据 库 管理 和 查询 工具 。 
本 节 MongoDB 的 讲解 中 ， 我 们 使 用 MongoDB 单机 服务 器 的 部 署 方式 ， 客 户 端 使 用 Mon- 
go Shell 方式 连接 MongoDB 服务 吉 。 
MongoDB 数据 库 启 动 步骤 如 下 : 
1. 创建 数据 目录 和 日 志文 件 
打开 一 个 命令 终端 ， 进 入 到 mondodb 目录 ,第 一 次 启动 时 创建 一 个 目录 data， 用 于 存放 
MongoDB 的 数据 。 第 一 次 启动 时 创建 文件 log, 用 于 保存 日 志 。 
2. 开启 MongoDB 服务 端 
进入 到 bin 目录， 开启 MongoDB 服务 端 。 用 mongod 脚本 开启 服务 端 ， 如 下 所 示 : 


>. /mongod -- dbpath .. /data/ —— logpath ../log —— logappend 


mongod -- dbpath 创建 数据 库 文件 的 存放 位 置 ， 启 动 mongodb 服务 时 需 确定 数据 库 文 件 
存放 的 位 置 ; -- logpath 表示 日 志文 件 存放 的 路 径 ; -- logappend 表示 以 追加 的 方式 写 日 志 
文件 。 

3. 开启 MongoDB 客户 端 

MongoDB Shell 是 MongoDB 自 带 的 交互 式 Javascript Shell 工具 ， 对 MongoDB 数据 库 进 行 
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操作 和 管理 。 进 入 MongoDB 的 bin 目录 ， 输入 . /mongo 命令 进入 MongoDB 后 台 :， 


>. /mongo 


root@UbuntuDevelopment: /usr/software/mongodb /mongodb- linux - 
mongodb- linux-x86_64-ubuntu1i464-3.2.5/bin# . /mongo 

MongoDB shell version: 3.2.5 

connecting to: test 

server has startup warnings: 

2816-864-19T22:18:58.579+6866 I CONTROL [main] ** WARNING: 
2616-864-19T22:18:58.579+6886 I CONTROL [main] ** 
2616-64-19T22:18:58.668+6866 I CONTROL [initandlisten] 
2816-864-19T22:18:58.668+68868 I CONTROL [initandlisten] * 
nd _ip has been specified. 

2616-64-19T22:18:58.668+6866 I CONTROL [initandlisten] ** 
2616-64-19T22:18:58.668+6866 I CONTROL [initandlisten] ** 
2616-64-19T22:18:58.668+6868 I CONTROL [initandlisten] ** 


外 


输入 . /mongo 命 命令 进入 MongoDB 后 台 后 ， 显 示 MongoDB Shell 的 版 本 号 ， 默 认 链 接 到 
test 文档 〈 数 据 库 ) ，MongoDB Shell 是 一 个 JavaScript Shell， 可 以 运行 一 些 简单 的 算术 运算 . 


>2 +2 
4 
>3+0 
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3.6.3 准备 数据 


MongoDB 中 基本 的 概念 是 文档 、 集 合 、 数 据 库 ， 如 下 表 所 示 : MongoDB 中 的 collection 
对 应 于 SQL 数据 库 中 的 表 ; MongoDB 中 的 document 对 应 于 SQL 数据 库 中 的 行 ，MongoDB 中 
的 field 对 应 于 SQL 数据 库 中 的 数据 字段 : 


SQL 数据 库 MongoDB 说 明 
database database 数据 库 
table collection 数据 库 表 /集合 
TOW document 数据 记录 行 /文档 
column field 数据 字段 / 域 
index index 索引 
table joins 表 连 接 ，MongoDB 不 支持 
primary key primary key 主键 ，MongoDB 自动 将 _id 字段 设置 为 主键 


本 节 MongoDB 案例 的 数据 是 学 生 信息 表 信 息 : 包括 ID、 姓名、 性别、 生日 ; 


ID Name (姓名 ) Gender (性 别 ) Birthday (生日 ) 
1 A F 1996/9/12 
2 M 1995/12/23 
3 C M 1996/10/29 
4 D M 1995/2/25 
5 E F 1997/6/6 


MongoDB 文档 是 一 组 键 值 对 ey — Value)。 


同 的 字段 不 需要 相同 的 数据 类 型 ， 
包括 学 生 的 成 绩 等 信息 办 去 
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分 数 〈 数 学、 历史 、 


MongoDB 的 文档 不 需要 设置 相同 的 字段， 
这 与 关系 型 数据 库 有 很 大 的 区 别 。 这 里 学 生 信 息 表 信息 中 还 
ID、 姓名 、 信息 (性 别 、 生日 )、 


相 


汉语 )。 


Info (信息 ) Score (分 数 ) O) 
ID Name (姓名 ) 
Gender( 性别) | Birthday( 生 日 ) | Math( 数 学 ) | History( 历 史 ) | Chinese( 汉 语 ) 
24 X F 1997/6/6 90 87 
25 M 1998/12/21 78 96 
26 Z M 1998/3/21 83 84 
我 们 在 MongoDB 数据 库 中 创建 学 生 信 息 表 信 息 的 相关 记录 : 
在 MongoDB 的 命令 行 客户 端 中 ,在 MongDB 中 创建 数据 库 MyDB ， 命 令 如 下 : 
> use MyDB ; 
向 MyDB 中 搬入 一 个 集合 MyCollection ， 命 令 如 下 : 
> db. createCollection(“ MyCollection “ ); 
向 集合 MyCollection 中 搬入 以 下 数据 记录 ， 命 令 如 下 : 
db. MyCollection. save( | ID:"1" ,Name:"A" ,Gender:"F" ,Birthday:"1996 -09 -12" | ) ; 
db. MyCollection. save( 1ID:"2" ,Name:"B" ,Gender:" M" ,Birthday:"1995 -12 -23" 1 ) ; 
db. MyCollection. save( |ID:"3",Name:"C",Gender:" M" ,Birthday:"1996 -10 -29" |); 
db. MyCollection. save( 1ID :"4" ,Name:"D" ,Gender:" M" ,Birthday:"1995 -02 -25" | ) ; 
db. MyCollection. save( | ID :"5" ,Name:"E" ,Gender:"F" ,Birthday:"1997 -06 -06" | ) ; 


db. MyCollection. save( {| ID : 


Score: | Math :90 ,History:871 | ) ; 
db. MyCollection. save( 1ID:" 25" , Name:"Y" ,Info: | Cender:" M" , Birthday:" 1998 - 12 - 21 "| ， 


Score 


: | Math:78 ,History:961| ) ; 


"24" ,Name:"X" ,Info: | Gender:" F", Birthday:" 1997 -06 -06 "| ， 


db. MyCollection. save( 1ID:"26" ,Name:"Z" ,Info: | Gender:" M" ,Birthday:" 1998 -03 - 21 "| ， 
Score: | Math :83, Chinese :84| | ) ; 


用 find 命令 查看 数据 结 


>db. MyCollection. find( ) 


数据 结果 如 下 所 示 : 


> db. 

{ "_id" : ObjectId("5726e8dd6d116e7ec14b671a" 
{ "_id" : objectId("5729e8f46d116e7ec14b671b" 
{ "_id" : ObjectId("5720e8fb6d110e7ec14b671c" 
{ "_id" : 0bjectId("5726e9666d116e7ec14b671d" 
{ "_id" : ObjectId("5726e9666d116e7ec14b671e" 
{ "_id" : ObjectId("5720e9176d110e7ec14b671f" 
Score" : { "Math" : 90, "History"” : 87 } } 

{ "_id" : 0bjectId("57260e9276d116e7ec14b6726" 
Score" : { "Math" : 78, "History" : 96 } } 

{ "_id" : ObjectId("5720e92e6d110e7ec14b6721" 
Score" : { "Math" : 83, "Chinese" : 84 } } 


MyCollection.find() 


命令 如 下 : 


95 "A", "Gender" : "F", "Birthday" : "1996-69-12" 
J "B", "Gender" "Birthday" : "1995-12-23" 
)， "C", "Gender" : ,， "Birthday" : "1996-16-29" 
pb "D", "Gender"” : " "3 "Birthday" : "1995-02-25" 
Ys : "E", "Gender" a "Birthday" : "1997-96-66" 
hs Y Xe "Info" if ‘Gender”" : "F", "Birthday" 
》 ID "25"，"Name"”: "Y", "Info" : { "Gender" : "M", "Birthday" 
bP "26", "Name"” : "7Z", "Info" : { "Gender" : "M", "Birthday" 


Pi 


997-66-66 " }, " 


"9 


"1998-63-21 " }, " 
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Spark SQL 操作 MongoDB 


本 节 Spark SQL 操作 MongoDB 案例 将 对 学 生 信息 表 的 相关 记录 进行 查询 统计 操作 。 有 具体 
步骤 如 下 : 

1) MongoDB 服务 器 启动 MongoDB 服务 。 

2) Spark 中 引入 MongoDB 的 相关 JAR 包 。 

3) 设置 MongoDB 数据 库 连 接 的 URI 信息 地址、 端口 、 数 据 库 及 文档 信息 。 

4) 设置 MongoDB 的 查询 条 件 。 

5) Spaxk 代码 打 成 JAR 包 ， 提 交集 群 运行 。Spark 从 MongoDB 中 查询 统计 学 生 信息 的 数据 。 

e 查询 性 别 为 男 的 所 有 学 生 。 

。 查询 性 别 为 男 、 数 学 成 绩 高 于 80 分 的 文档 。 

e 数学 成 绩 低 于 90 的 分 数 加 上 5 分 成 绩 。 

e 删除 历史 History 分 数 小 于 90 的 键 。 

e 查询 结果 保存 到 MongoDB 数据 库 中 。 

Spark 中 读 取 MongoDB 数据 库 ， 需 要 依赖 的 JAR 包 包 括 : MongoDB - driver -3. 0. 2. jar， 
MongoDB - driver - core -3. 0. 2. jar, bson -3. 0.2. jar, mongo -hadoop - core —1. 4.0. jar, mon- 
go — java - driver —3. 0. 2. jar, spark - MongoDB_2. 10 -0. 10.1.jar， 可 以 在 Maven 的 配置 文件 
pom. xml 中 增加 以 下 依赖 关系 : 


< dependency > 
< groupld > org. mongodb < /groupld > 
< artifactld > mongodb — driver < /artifactld > 
<version >3.0.2 </version > 

</dependency > 

< dependency > 
< groupld > org. mongodb < /groupld > 
< artifactld > mongodb - driver - core < /artifactld > 
< version >3.0.2 </version > 

</dependency > 

< dependency > 
< groupld > org. mongodb < /groupld > 
<artifactld > bson < /artifactld > 
< version >3.0.2 </version > 

</dependency > 

< dependency > 
< groupld > org. mongodb. mongo — hadoop </groupld > 
< artifactld > mongo — hadoop — core < /artifactld > 
<version >1.4.0</version > 

</dependency > 

<dependency > 
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< groupld > org. mongodb < /groupld > 
<artifactld > mongo — java — driver < /artifactld > 
<version >3.0.2 </version > 


</dependency > > 


其 中 mongo - hadoop - core -1.4.0. jar 是 连接 右 ， 可 以 用 它 来 实现 从 MongoDB 上 读 写 数 
据 ， 其 配置 参数 使 用 配置 对 象 传递 ， 其 中 最 重要 的 两 个 参数 是 mongo. input uri 和 
mongo. output. uri ， 这 两 个 参数 提供 了 MongoDB 主机、 端口、 权限、 数据 库 和 数据 集合 名 字 。 

在 用 Spark 操作 MongoDB 的 过 程 中 ， 首 先 使 用 命令 . /mongod -- dbpath . . /data/ - -log- 
path . . /log ---]logappend 启动 MongoDB 的 服务 。 

然后 用 Spark 操作 MngoDB 需要 引入 如 下 的 类 (org. bson. BasicBSONObject 、org. bson. 
BSONObject 、 com. mongodb. hadoop. MongoInputFormat 、 com. mongodb. hadoop. Mongo Output- 


Format 、org. apache. hadoop. conf. Configuration ) 


import org. apache. spark. | SparkContext, SparkConf!} 
import org. bson. {BasicBSONObject, BSONObject!} 
import com. mongodb. hadoop. | MongoInputFormat, MongoOutputFormat)| 


import org. apache. hadoop. conf. Configuration 


引入 MongoDB 的 JAR 包 以 后 ， 在 main 主 程序 中 封装 各 方法 操作 MongoDB， 步 骤 如 下 : 

e 初始 化 Spark Context。 

e 在 主 程序 业务 代码 中 分 别 调 用 各 方法 : queryDocuments (sc ) 、querySubcollection 
(sc)、 updateMath (sc) 、removeHistory (sc) 、saveToMongo (sc) 

e 关闭 Spark Context。 


main 主 函 数 代码 如 下 : 
/ 米 米 
* 主 函数 


六 
* @ param args 
*/ 
def main(args: Array[ String | ) {val sparkConf = new SparkConf( ). setAppName( "SparkMongoDB" ) 
. setMaster( "local[ * ]") //. setSparkHome(sys. env(" SPARK_HOME" )) 
val sc = new SparkContext( sparkConf ) 
sc. setLogLevel(" WARN" ) 
queryDocuments (sc ) 
querySubcollection( sc ) 
updateMath( sc) 
removeHistory( sc ) 


saveToMongo( sc) 


sc. stop( ) 
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(1) 示例 一 : 查询 性 别 为 男 的 所 有 学 生 

1) 创建 Hadoop 的 Configuration 配置 类 ,设置 MongoDB 的 输入 input URI 连接 属性 : 地 
址 、 端 口 、 MyDB 数据 库 及 MyCollection 集合 信息 ; 设置 MongoDB 的 input 输入 类 型 为 Mon- 
goInputFormat; 设置 MongoDB 的 查询 条 件 mongo. input. query: 性 别 是 男 。 

2) 调用 SparkContext 的 newAPIHadoopRDD 方法 ，newAPIHadoopRDD 的 第 一 个 参数 Con- 
figuration 用 于 设置 数据 集 的 配置 ，Configuration 将 被 放 进 Spark 广播 中 。 这 里 传人 MongoDB 
的 配置 类 ; 第 二 个 参数 InputFormat 为 输入 类 型 是 MongoInputFormat 格式 ; 第 三 个 参数 是 返 
回 结 果 的 Key 值 ， 类 型 为 Object; 第 四 个 参数 是 返回 结果 的 Value 值 ， 类 型 为 BSONObject; 

3) 对 newAPIHadoopRDD 查询 MongoDB 的 结果 人 遍历， 打印 输出 。 第 一 个 元 素 是 Object ID， 
第 二 个 元 素 是 MongoDB 中 MyDB 数据 库 MyCollection 集合 中 性 别 为 男 的 文档 document 记录 。 


/ 米 米 
+ 查询 Cender:M 的 所 有 学 生 
*/ 
def queryDocuments( sc:SparkContext) : Unit = | 
val mongoConfig = new Configuration( ) 
mongoConfig. set("mongo. input. uri" ," mongodb://127. 0. 0. 1:27017/MyDB. MyCollection" ) 
mongoConfig. set( "mongo. job. input format" ," com. mongodb. hadoop. MongoInputFormat" ) 


mongoConfig. set( "mongo. input. query" ,"'| Gendet :M |}") 


val mongoRDD = sc. newAPIHadoopRDD ( mongoConfig, classOf[ MongoInputFormat | , classOf[ Ob- 
ject | , classOf[ BBONObject ] ) 


mongoRDD. foreach(x= > printn(x. 1 + "" +x..2)) 
RY 十 
查询 结果 如 下 : 

5720e8f46d119e7ec14b671b { "_id" : { "$oid" : "5729e8f46d119e7ec14b671b"} , "ID" : "2" , "Name" : "B" ，"Gender" : "M" , "Birthday" : 
"1995-12-23"} 
5726e8fb6d116e7ec14b67lc { "_id" : { "S$oid" : "5720e8fb6d116e7ec14b671c"}】 , "ID"” : "3" , "Name" : "C" , "Gender" : "M" , "Birthday" : 
"1996-10-29"} 
5726e9696d116e7ec14b671d { "_id" : { "S$oid" : "5720e9606d116e7ec14b671d"} , "ID" : "4" , "Name" : "D" , "Gender™" : "M" , "Birthday" : 
"1995-62-25"} 


(2) 示例 二 : 查询 性 别 是 男 并 且 数 学 分 数 大 于 80 分 的 文档 

1) 创建 Hadoop 的 Configuration 配置 类 , 设置 MongoDB 的 输入 input URI 连接 属性 : 地 
址 、 端 口 、 MyDB 数据 库 及 MyCollection 集合 信息 ; 设置 MongoDB 的 input 输入 类 型 为 Mon- 
goInputFormat; 设置 MongoDB 的 查询 条 件 mongo. input. query: 信息 Info 性 别 为 男 ， 分 数 
Score 为 数学 成 绩 大 于 80 分 。 

2) 调用 SparkContext 的 newAPIHadoopRDD 方法 。 

3) 对 newAPIHadoopRDD 查询 MongoDB 的 结果 遍历 ， 打 印 输 出 。 第 一 个 元 素 是 Object 
ID ， 第 二 个 元 素 是 MongoDB 中 MyDB 数据 库 MyCollection 集合 中 性 别 是 男 并 且 数 学 大 于 80 
分 的 记录 。 


0 


* 读 取 mongodb 中 的 内 骸 文 档 
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x* 查询 Gender 是 M 并 且 Math 大 于 80 的 文档 


*/ 
def querySubcollection( sc :SparkContext) : Unit = | 
val mongoConfig = new Configuration( ) > 


mongoConfig. set( " mongo. input. uri" ," mongodb://127. 0. 0. 1:27017/MyDB. MyCollection" ) 


Sd 


mongoConfig. set( "mongo. job. input format" ," com. mongodb. hadoop. MongoInputFormat" ) 
mongoConfig. set(" mongo. input. query" ," ! 人 : |$exists:true|', Info. Gendet ': M ,Score : |$ exists: 


true| ,Score. Math : |$gte:80)}) ,| }") 


val mongoRDD = sc. newAPIHadoopRDD ( mongoConfig, classOf[ MongoInputFormat | , classOf[ Ob- 
ject | , classOf[ BSONObject ] ) 


mongoRDD. foreach(x= > printn(x 1 + "" +x..2)) 
查询 结果 如 下 : 
5720e92e6d119e7eC14b6721 f ”id i Ea "Soid" 四 "5720e92e6d119e7ec14b6721" "} ,I Dp" "26" "Name" : "ZzZ" , "Info" : { "Gender" : "Mm" ， 
'Birthday" : "1998-63-21 "} ， "Score { "Math" : 83.0 , "Chinese" : 84.6}} 


-oot@Ubuntu5: /usr /software/spark/spark-1.6.1-bin-hadoop2’6/bin# | | 


(3) 示例 三 : 数学 小 于 90 分 的 分 数 加 5 分 

1) 创建 Hadoop 的 Configuration 配置 类 ， 设 置 MongoDB 的 输入 input URI 连接 属性 : 地 
址 、 端 口 、MyDB 数据 库 及 MyCollection 集合 信息 ; 设置 MongoDB 的 输出 output URI 连接 属 
性 地 址 、 端 口 、test 数据 库 及 foo 集合 信息 ; 设置 MongoDB 的 input 输入 类 型 为 Mongoln- 
putFormat; 设置 MongoDB 的 更 新 操作 mongo. input. update: 数学 小 于 90 分 就 加 5 分 。 

2) 调用 SparkContext 的 newAPIHadoopRDD 方法 。 将 数学 成 绩 低 于 90 分 的 加 5 分 以 后 
的 输出 结果 保存 到 MongoDB test 数据 库 的 foo 集合 。 

3) 对 newAPIHadoopRDD 查询 MongoDB 的 结果 人 遍历， 打印 输出 。 第 一 个 元 素 是 Object 
ID ， 第 二 个 元 素 是 MongoDB 中 MyDB 数据 库 MyCollection 集合 中 数学 成 绩 低 于 90 分 就 加 5 


分 的 记录 。 


/ 米 米 
* 把 Math 小 于 90 的 分 数 加 5 分 
+ 修改 器 $inc 可 以 对 文档 的 数字 型 的 键 进行 增 减 的 操作 。 
*/ 
def updateMath( sc:SparkContext) : Unit = | 
val mongoConfig = new Configuration( ) 
mongoConfig. set("mongo. input. uri" ," mongodb://127. 0. 0. 1:27017/MyDB. MyCollection" ) 
mongoConfig. set( "mongo. output. uri" ," mongodb://127. 0. 0. 1:27017/test. foo" ) 


wh 


mongoConfig. set( "mongo. job. input. format" ," com. mongodb. hadoop. MongoInputFormat" ) 
mongoConfig. set( "mongo. input. update" ," | Score. Math : {$1t:90}}, {$inc:| Score. Math .5}},| 


upsert:false ,multi;true}" ) [内衣 文档 
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val mongoRDD = sc. newAPIHadoopRDD ( mongoConfig, classOf[ MongoInputFormat | ,classOf| Ob- 
ject | ,classOf| BBONObject ] ) 


mongoRDD. foreach(x= > printn(x 1 + "" +x..2)) 


| 
操作 结果 如 下 图 : 


{ "_id" : ObjectId("5720e8dd6d119e7ec14b671a")，"ID”: "1"，"Name"”: "A", "F"，"Birthday”: "1996-69-12" } 
{ "_id" : ObjectId("5729e8f46d119e7ec14b671b"), "ID" : "2", "Name" : "B", M", "Birthday "1995-12-23" } 
{ "_id" : ObjectId("5720e8fb6d119e7ec14b671c")，"ID”: "3", "Name"” : "C", M", "Birthday "1996-16-29" } 
{ "_id" : ObjectId("5726e9666d116e7ec1l4b671d")，"ID”: "4", "Name” : "D", M", "Birthday "1995-62-25" } 
{ "_id" : ObjectId("5720e9066d116e7ec14b671e"), "ID" : "5", "Name"” :; "E", "Gender F", "Birthday" "1997-66-66"”] 
{ "_id" : 0bjectId("5726e9176d116e7ec14b671f")，"ID"”: "24"，"Name"”: "X"，"Info" : { "Gender" : "F", "Birthday" : "1997-66-66 " }, " 


Score" : { "Math" : 90, "History" : 87 } } 
{ "_id" : 0bjectId("5720e9276d116e7ec14b6729")，"ID”: "25", "Name" : "Y", "Info" : { "Gender" : "M" 
Score"”: { "Math" : 83, "History" : 96 } } 
{ "_id" : ObjectId("57206e92e6d116e7Tec14b6721"), "ID" : "26", "Name" : "Z", "Info" : { "Gender" : "M" 
Score” : { "Math" : 88, "Chinese"” : 84 } } 


(4) 示例 四 : 删除 历史 分 数 小 于 90 分 的 键 

1) 创建 Hadoop 的 Configuration 配置 类 , 设置 MongoDB 的 输入 input URI 连接 属性 : 地 
址 、 端 口 、 MyDB 数据 库 及 MyCollection 集合 信息 ，; 设置 MongoDB 的 input 输入 类 型 为 Mon- 
goInputFormat; 设置 MongoDB 的 更 新 操作 mongo. input. update: 删除 历史 分 数 小 于 90 分 的 
键 值 。 

2) 调用 SparkContext 的 newAPIHadoopRDD 方法 。 

3) 对 newAPIHadoopRDD 查询 MongoDB 的 结果 遍历 ， 打 印 输 出 。 第 一 个 元 素 是 Object 
ID ， 第 二 个 元 素 是 删除 历史 分 数 小 于 90 分 的 集合 记录 ， 即 X 同学 的 历史 分 数 是 87 分 小 于 
90 分 ， 因 此 X 同学 记录 中 的 历史 分 数 键 值 对 被 删除 。 


，"Birthday”: "1998-12-21 " }，" 


，"Birthday”: "1998-63-21 " ]，" 


ti 


/ 米 米 
* 删除 History 分 数 小 于 90 的 键 值 
*/ 
def removeHistory( se: SparkContext) : Unit = | 
val mongoConfig = new Configuration( ) 
mongoConfig. set( "mongo. input. uri" ," mongodb://127. 0. 0. 1:27017/MyDB. MyCollection" ) 
mongoConfig. set( "mongo. job. input format" ," com. mongodb. hadoop. MongoInputFormat" ) 
mongoConfig. set(" mongo. input. update" ," | Score. History : {$1t:90|}), I$unset: | Score. History : 
1 ,| multi;true}" ) // 内 般 文 档 


val mongoRDD = sc. newAPIHadoopRDD ( mongoConfig, classOf[ MongoInputFormat | , classOf[ Ob- 
ject | , classOf[ BBONObject ] ) 


mongoRDD. foreach(x= > printn(x 1 + "" + x..2)) 


| 
操作 结果 如 下 : 


{ "_id" : ObjectId("5720e8dd6d116e7ec14b671a"), "ID" : "1", "Name" : "A", "Gender" : "F", "Birthday" : "1996-69-12" } 
{ "_id" : ObjectId("5720e8f46d1190e7ec14b671b"), "ID" : "2", "Name" : "B", "Gender" : ， "Birthday" : "1995-12-23" } 
{ "_id" : ObjectId("5726e8fb6d1i1i0e7ec14b671c"), "ID" : "3", "Name"” : "C", "Gender" : "M", "Birthday" : "1996-16-29" } 
{ "_id" : ObjectId("57206e9696d116e7ec14b671d"), "ID" : "4", "Name" : "D", "Gender" : ", "Birthday" : "1995-62-25" } 
{ "_id" : ObjectId("5720e90666d116e7ec14b671e"), "ID" : "5", "Name" : "E", "Gender" : "F", "Birthday" : "1997-66-66" } 


{ "_id" : ObjectId("5729e9176d119e7ec14b671f"), "ID" : "24", "Name" : "xX", "Info" : { "Gender" : "F", "Birthday" : "1997-066-66 " }, " 
score"” : { "Math" : 90 } } 


{ "_id" : ObjectId("5726e9276d116e7ec14b6726"), "ID" : "25", "Name" : "Y", "Info" : { "Gender" : "M", "Birthday" : "1998-12-21 " }, " 
Score"” : { "Math" : 83, "History"” : 96 } } 
{ "id" : 0bjectId("5729e92e6d116e7ec14b6721")，"ID" : "26", "Name" : "Zz", "Info" : { "Gender" : "M", "Birthday" : "1998-93-21 " }, " 


score” : { "Math" : 88, "Chinese" : 84 }} 


上 :让 二: 贡 和 Sbark SQL 操作 多 种 数据 源 


(5) 示例 五 : 保存 数据 到 mongodbMongoDB 中 

1) 创建 Hadoop 的 Configuration 配置 类 , 设置 MongoDB 的 输入 input URI 连接 属性 : 
址 、 端 口 、MyDB 数据 库 及 MyCollection 集合 信息 ; 设置 MongoDB 的 输出 output URI 连接 
性 : 地 址 、 端 口 、MyDB 数据 库 及 MyCollection 集合 信息 ; > 

2) 调用 Spark 的 parallelize 方法 生成 data RDD。 

3) 遍历 data， 将 data 的 数据 写 人 到 BasicBSONObject，BasicBSONObject 对 象 obj 放 入 
name 、age 键 值 对 ，map 方法 遍历 以 后 返回 元 组 Key - Value (null，obj) 键 值 对 ， 元 组 的 第 
一 个 元 素 为 null， 因 为 保存 至 Hadoop 时 第 一 个 元 素 是 NullWritable; 第 二 个 元 素 为 BasicB- 
SONObject 对 象 obj。 

4) 调用 SparkContext 的 saveAsNewAPIHadoopFile 方法 保存 记录 ，saveAsNewAPIHa- 
doopFile 方法 的 第 一 个 参数 是 MongoDB 结果 保存 的 路 径 ， 即 保存 在 MyDB 数据 库 的 MyCol- 
lection 集合 中 ， 第 二 个 参数 是 输入 Key 的 类 型 Any， 第 三 个 参数 是 输入 Value 的 类 型 Any， 

第 四 个 参数 是 输出 的 类 型 MongoOutputFormat[ Any, Any] ， 第 五 个 参数 是 Hadoop 的 配置 类 


mongoConfig。 


车 


al 


YE 
* 保存 到 mongodb 中 
*/ 
def saveToMongo( sc:SparkContext) : Unit = | 
val mongoConfig = new Configuration( ) 
mongoConfig. set("mongo. input. uri" ," mongodb://127. 0. 0. 1:27017/MyDB. MyCollection" ) 
mongoConfig. set( " mongo. output. uri" ," mongodb://127. 0. 0. 1:27017/ MyDB. MyCollection" ) 


val data = sc. parallelize( List( ("Tom" ,31),("Jack" ,22),("Mary" ,25))) 


// 使 用 MongoOutputFormat 将 数据 写 入 到 MongoDB 中 
val rdd = data. map( (elem) = > | 

val obj = new BasicBSONObject( ) 

obj. put( "name" ,elem. _1. toString) 


obj. put( " age" ,elem. _2. toString) 


// 转 换 后 的 结果 , 键 值 对 ,第 一 个 是 BSON 的 ObjectId , 插 人 时 可 以 指定 为 null, MongoDB 
Driver 在 插入 到 MongoDB 时 ,自动 生成 obj 是 BSONObject, 是 MongoDB Driver 接收 的 插入 对 象 
(null ,obj) 
1}) 
rdd. saveAsNewAPIHadoopFile(" MyDB. MyCollection" , classOf[ Any ] , classOf[ Any | , classOf| Mon- 


goOutputFormat[ Any, Any | | , mongoConfig) 
| 


保存 的 结果 如 下 所 示 : 


> db.MyCollection.find() 

{ "id" : 0bjectId("5729e8dd6d116e7ec14b671a")，"ID"”: "1"，"Name”: "A", "Gender" : "F"，"Birthday”: "1996-69-12”] 

{ "id" : ObjectId("5720e8f46d1ili6e7ec14b671b"), "ID" : "2", "Name" : "B", "Gender" : "M", "Birthday" : "1995-12-23" } 

{ "id" : 0bjectId("5726e8fb6d116e7ec14b671c")，"ID”: "3", "Name" : "C", "Gender" : "M", "Birthday" : "1996-16-29" } 

{ "_id" : ObjectId("5729e9666d116e7ec14b671d")，"ID”: "4", "Name" : "D", "Gender" : "M", "Birthday" : "1995-62-25" } 

{ "id" : ObjectId("5s720e9666d1196e7ec14b671e"), "ID" : "5", "Name" : "E", "Gender" : "F", "Birthday" : "1997-66-66" } 

{ "id" : 0bjectId("5726e9176d116e7ec14b671f")，"ID”: "24", "Name” : "X", "Info" : { "Gender" : "F", "Birthday" : "1997-696-66 " }, " 
Score"”: { "Math" : 96, "History"” : 87 


下 .二 
"_id" : ObjectId("5729e9276d116e7ec14b6726"), "ID" : "25", "Name" 
Score” : { "Math”: 78, "History" : 96 } } 
{ "_id" : 0bjectId("5726e92ze6d1169e7ec14b6721")，"ID”: "26", "Name" : "Zz", "Info" : { "Gender" : "M" 
Score"”: { "Math" : 83, "Chinese" : 84 } } 


"Y", "Info" : { "Gender" ", "Birthday" : "1998-12-21 " }, " 


， "Birthday" : "1998-63-21 " }, " 


"_id" : ObjectId("5726f22456d4ae238c61444e"), "name" : "Jack", "age"” : "22" } 
{ "id" : ObjectId("5720f22456d4ae238c61444d"), "name" : "Tom", "age” : "31" } 
{ "id" : ObjectId("5720f22456d4ae238c61444f"), "name" : "Mary", "age" : "25" } 


用 到 本 章 小 结 


本 章 详细 阐述 了 Spark SQL 对 多 种 数据 源 的 操作 ，Spark SQL 可 加 载 Parquet、Json、 文 
本 文件 等 各 种 数据 源 格式 的 数据 ; Spark SQL 可 以 操作 各 种 数据 库 ， 例 如 : Spark SQL 操作 
Hive 、Spark SQL 操作 Json 数据 集 、Spark SQL 操作 HBase 、SparkSQL 操作 MySQL 、SparkSQL 
操作 MongoDB 等 等 。 通 过 本 章 的 学 习 ， 读 者 可 以 熟练 掌握 Spark SQL 对 各 种 数据 源 的 操作 。 


人 :Parquet 列 式 存 储 


第 4 闹 Parquet 列 式 存储 


4.1 Parquet 概述 


Spark SQL 目前 已 经 在 框架 内 部 默认 实现 了 对 JSON 、HBase 、Apache Parquet 等 数据 格式 
的 支持 ， 在 Spark SQL 读 写 数据 的 时 候 ， 用 户 可 以 手动 指定 数据 的 格式 ， 例 如 指定 读 取 数据 
文件 来 源 是 JSON 格式 的 ， 而 在 输出 的 时 候 可 以 指定 输出 为 Apache Parquet 格式 ， 从 JSON 到 
Apache Parquet 不 同 格式 的 具体 转换 是 Spark SQL 框架 自动 完成 的 。 接 下 来 介绍 Apache Par- 
quet，Apache Parquet 是 面向 分 析 型 业务 的 列 式 存储 格式 ， 由 Twitter 和 Cloudera 合作 开发 ， 
并 于 2015 年 5 月 成 为 Apache 顶级 项 目 。Parquet 是 一 种 语言 无 关 列 式 存储 格式 的 文件 类 型 ， 
可 以 适 配 多 种 计算 框架 ， 而 且 不 与 任何 一 种 数据 处 理 框 架 绑 定 在 一 起 ， 适 配 多 种 语言 和 
组 件 。 


7 ”Parquet 的 基本 概念 


1， 列 式 存 储 

列 式 存储 指数 据 是 按 列 存储 的 ， 每 一 列 数据 单独 存放 ， 列 式 存储 以 流 的 方式 在 列 中 存储 
所 有 的 数据 ， 主 要 适合 批量 数据 处 理 和 即席 查询 。 

下 面 看 一 个 行 式 存储 及 列 式 存储 的 示意 图 ， 如 图 4-1 所 示 。 
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图 4-1 行 式 存 储 及 列 式 存储 示意 图 
a) 行 式 存储 b) 列 式 存储 


图 4-1 中 左 侧 的 表格 基于 行 式 的 存储 ， 如 表 4-1 所 示 。 


表 4-1 行 式 存储 


图 4-1 中 右 侧 的 表格 基于 列 式 的 存储 ， 如 表 4-2 所 示 。 


表 4-2 列 式 存储 


从 图 4-1 可 以 看 出 ， 基 于 行 式 的 存储 ， 依 次 存储 每 一 行 的 数据 ， 一 张 表 的 数据 存放 在 
一 起 。 但 列 式 存储 的 数据 是 按照 列 存储 的 ， 每 一 列 单独 存放 ， 数 据 即 是 索引 。 如 数据 查询 时 
只 访问 查询 涉及 的 列 ， 大 大 降低 了 系统 IO ， 而 且 由 于 数据 类 型 一 致 ， 方 便 压 缩 。 

Parquet 是 一 种 支持 构 套 数据 的 列 式 存储 格式 。Parquet 元 数据 使 用 Apache Thrift 进行 编 
人 码 。Parquet -format 项 日 包含 创建 Parquet 文件 的 readers 及 writers 所 需 的 所 有 Thrift 定义 。 
Parquet 为 Hadoop 生态 系统 中 的 任何 项 目 提 供 可 压缩 的 列 式 数据 表达 、Parquet 使 用 “record 
shredding and assembly algorithm” (基于 Dremel 的 论文 ) 算法 来 表示 复杂 的 般 套 数据 类 型 ， 
通过 列 式 压缩 和 编码 技术 降低 了 存储 空间 ， 提 高 了 1/0 效率 。 

2. Parquet 的 3 个 核心 组 成 部 分 

1) Storage Format (存储 格式 ) : 定义 了 Parquet 内 部 的 数据 类 型 和 存储 格式 。 

2) Object Model Converters ( 对象 模型 转换 恬 ): 负责 数据 对 象 和 数据 类 型 之 间 的 映 
射 。 这 部 分 功能 由 parquet - mr 项 目 来 实现 ， 主 要 完成 外 部 对 象 模型 与 Parquet 内 部 数据 类 
型 的 映射 ， 映 射 完 成 后 Parquet 会 进行 自己 的 Column Encoding， 然 后 存储 Parquet 格式 
文件 。 

3) Object Models (对 象 模型 ) : 在 Parquet 中 具有 自己 的 Object Model 定义 的 存储 格式 ， 
例如 ，Avro 具有 自己 的 Object Model， 但 是 Parquet 在 处 理 相 关 格 式 的 数据 时 会 使 用 自己 的 
Object Model 来 完成 具体 数据 的 存储 。 


Avro 是 Hadoop 中 的 一 个 子 项 目 ， 是 一 个 基于 二 进 制 数据 传输 高 性 能 的 中 间 件 ， 是 一 个 数据 序列 化 的 系 
统 。Avro 可 以 将 数据 结构 或 对 象 转 化 成 便于 存储 或 传输 的 格式 ， 适 合 远程 或 本 地 大 规模 数据 的 存储 和 


交换 。 


3. 大 数据 分 析 技 术 栈 中 数据 流水 线 处 理 的 三 种 方式 

业界 对 大 数据 分 析 技 术 栈 的 数据 管道 一 般 分 为 以 下 三 种 方式 : 

1) 数据 源 一 HDFS 一 MR/Hive/Spark (相当 于 ETL) 一 HDFS Parquet 一 Spark SQLZImpala 
一 ResultService (可 以 放 在 DB 中 ， 也 有 可 能 被 通过 JDBCZODBC 来 作为 数据 服务 使 用 ) 。 

2) 数据 源 一 实时 更 新 数据 到 HBase/DB 一 导出 为 Parquet 格式 数据 一 Spark SQLZImpala 
一 ResultService (可 以 放 在 DB 中 ， 也 有 可 能 被 通过 JDBCZODBC 来 作为 数据 服务 使 用 ) 。 

上 述 第 二 种 方式 可 以 通过 Kafka + Spark Streaming + Spark SQL (强烈 建议 采用 Parquet 的 
方式 来 存储 数据 ) 方式 取代 。 业 界 最 期 待 的 数据 管道 方式 为 下 述 第 三 种 方式 : 


第 4 齐 CQO 


3) 数据 源 一 Kafka 一 Spark Streaming 一 Parquet 一 Spark SQL (ML、GraphX 等 ) 一 Par- 
quet 一 其 它 各 种 Data Mining 等 。 
由 此 可 见 ，Parquet 格式 数据 在 整个 大 数据 分 析 过 程 中 在 数据 管道 中 起 着 承 上 局 下 ， 数 
据 格式 转换 的 作用 ， 处 于 数据 管道 的 中 间 环 节 ， 其 地 位 相当 重要 。 人 


Parquet 数据 列 式 存储 格式 应 用 举例 


下 面 以 通讯 录 地 址 本 为 例 说 明 Parquet 列 式 存储 格式 。 


message AddressBook | 
required string owner; 
repeated string ownerPhoneNumbers; 
repeated group contacts| 
required string name; 
optional stringphoneNumber; 
| 
| 


整个 通讯 录 地 址 本 是 一 个 藤 套 结构 ， 根 结 点 是 通讯 录 地 址 本 (message) ， 地 址 本 里 面包 
含 多 个 字段 [如 业主 owner、 业 主 电 话 owner Phone Number、 联 系 人 (名 字 Name、 电 话 Pho- 
neNumber) ] 。 每 个 字段 包含 3 个 属性 : 重复 属性 、 字 段 类 型 、 标 识 符 。 

其 中 重复 属性 可 以 是 以 下 3 种 类 型 中 的 任意 一 种 : 

1) required (必需 的 ， 表 示 出 现 1 次 )。 

2) optional (可 选 的 ， 表示 出 现 0 次 或 者 1 次 )。 

3) repeated (重复 的 ， 表 示 出 现 0 次 或 者 多 次 ) 。 

其 中 字段 类 型 可 以 是 以 下 两 种 : 

1) group (组 类 型 表示 为 一 个 组 结构 体 ， 如 联系 人 结构 体 中 包括 联系 人 的 电话 和 名 字 ) 。 

2) primitive (基本 类 型 可 以 表示 为 int 、float 、boolean 、string 等 ) 。 

其 中 标识 符 可 以 解析 为 词法 标识 符 单词 : 如 业主 名 字 、 业 主 电话 等 。 

在 通讯 录 地 址 本 髋 套 结构 中 ， 每 条 记录 表示 一 个 人 的 通讯 录 ,， 通讯 录 中 必须 登记 业主 ; 
业主 可 以 记录 0 个 或 多 个 电话 号 码 ; 每 个 业主 可 以 拥有 0 个 或 多 个 联系 人 ， 每 个 联系 人 必须 
记录 名 字 ， 而 联系 人 的 电话 号 码 可 选 。 
通讯 录 地 址 本 可 以 用 图 4-2 来 表示 。 

对 通讯 录 地 址 本 的 树 状 结构 图 解释 如 下 : 

1) 图 4-2 中 ， 叶 子 结 点 分 别 为 : 业主 owner、 业 主 电 话 ownerPhoneNumbers、 联 系 人 名 
字 name 、 联 系 人 电话 phoneNumber。 

2) 在 逻辑 上 而 言 ， 模 式 (schema) 实质 上 是 一 个 表 ， 如 图 4-3 所 示 。 

3) 对 于 一 个 Parquet 文件 而 言 ， 数 据 会 被 分 成 Row Group (里 面包 含 很 多 Column ， 每 个 
Column 就 是 这 一 列 的 数据 ) ， 这 样 就 构成 了 和 矩阵 。 
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通讯 录 地 址 本 


可 重复 的 
业主 电话 


可 选 的 
图 4-2 通讯 录 地 址 本 的 树 状 结构 医 


业主 业主 电话 DO 


联系 人 名 字 联系 人 电话 


图 4-3” schema 示意 图 


4) Column 具有 几 个 非常 重要 的 特性 ， 例 如 : Repetition Level (重复 级 别 ) 、Definition Lev- 
el (定义 级 别 ) 。Column 在 Parquet 中 是 以 Page (页 ) 的 方式 存在 的 ，Page 中 有 Repetition Lev- 
el 、Definition Level 等 内 容 。 从 根 结 点 往 叶 子 结 点 遍历 的 时 候 ， 会 记录 深度 ， 这 个 就 是 Defini- 
tion Level。Definition Level 方便 我 们 精准 地 找到 数据 。owner 是 required， 所 以 将 其 Definition 
Level 可 以 定义 为 0。ownerPhoneNumber 结 点 没有 叶子 结 点 ， 定 义 为 1。Name 结 点 是 required ， 
定义 为 1。PhoneNumber 是 optional， 有 可 能 出 现 ， 也 有 可 能 不 出 现 ， 定义 为 2。Repetition Level 
为 重复 级 别 。Owner 为 0，ownerPhoneNumber 为 1，name 和 phoneNumber 都 是 1。 

5) Row Group 在 Parquet 中 是 数据 读 写 的 缓存 单元 ， 所 以 对 Row Group 的 设置 会 极 大 地 
影响 Parquet 的 使 用 速度 和 效率 。 如 果 是 分 析 日 志 的 话 ， 建 议 把 Row Group 的 缓存 大 小 配置 
成 256MB ， 而 很 多 人 的 配置 都 是 大 于 1 GB， 如 果 想 最 大 化 地 提高 运行 效率 ， 强 烈 建议 HDFS 
的 Block 大 小 和 Row Group 一 致 。 

6) 在 实际 存储 的 时 候 把 一 个 树 状 结构 ， 通 过 巧妙 的 编码 算法 ,转换 成 二 维 表 结 构 。 
Parquet 在 存储 时 ， 会 将 AddressBook 正 问 存储 为 4 列 ， 读 取 的 时 候 会 逆 癌 还 原 出 Address- 
Book 对 象 ， 如 表 4-3 所 示 。 


表 4-3 二 维 表 
列 最 大 定义 层次 最 大 重复 层次 
业主 0 (必需 的 ) 0 (不 重复 的 ) 
业主 电话 1 1 
联系 人 . 姓名 1 (名 字 必 需 的 ) 1 (联系 人 可 重复 ) 
联系 人 . 电话 2 (电话 号 可 选 ) 1 (联系 人 可 重复 ) 


7) Google 的 Dremel 系统 解决 了 列 式 存储 的 问题 ， 其 核心 思想 是 使 用 “record shredding 
and assembly algorithm” 记录 切 碎 和 组 装 算 法 来 表示 复杂 的 区 套数 据 类 型 ， 同 时 辅 以 按 列 的 
高 效 压缩 和 编码 技术 ， 实 现 降 低 存储 空间 。 该 算法 就 是 把 一 行 数据 打 碎 ， 打 碎 之 后 按照 自己 
的 编码 规则 ， 再 把 数据 组 装 起 来 。Parquet 就 是 基于 Dremel 系统 的 数据 模型 和 算法 来 实现 把 
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树 状 结构 转换 成 图 4-3 所 示 的 二 维 表 结 构 。 

8) Definition Level 是 为 了 快速 精准 地 找到 数据 ， 通 过 Definition Level 可 以 精准 地 判断 数 
据 一 定 在 哪个 位 置 上 。 艇 套数 据 类 型 的 特点 是 有 些 field 可 以 是 空 的 ， 也 就 是 没有 定义 。 如 
果 一 个 field 是 定义 的 ,那么 它 的 所 有 父 结 点 都 是 被 定义 的 。 从 根 结 点 开始 遍历 ， 当 某 一 个 > 
field 的 路 径 上 的 结 点 开始 是 空 的 时 候 ， 记 录 当 前 的 深度 作为 这 个 field 的 Definition Level。 如 
果 一 个 field 的 Definition Level 等 于 这 个 field 的 最 大 Definition Level ， 就 说 明 这 个 field 是 有 数 
据 的 。 对 于 required 类 型 的 field 必须 是 有 定义 的 ， 所 以 这 个 Definition Level 是 不 需要 的 。 在 
关系 型 数据 中 ，optional 类 型 的 field 被 编码 成 0 (表示 空 ) 和 1 (表示 非 空 ， 或 者 反之 ) 。 所 
以 对 于 上 个 例子 ,Owner 是 叶子 结 点 ， 且 是 一 定 存储 的 ， 因 此 就 将 Definition Level 定义 为 0。 
因为 Contacts 为 repeated， 所 以 name 的 Definition Level 不 可 以 为 0， 只 能 为 1。phoneNumber 
是 optional ， 因 此 它 的 Definition Level 是 2。 

9) 什么 是 Repetition Level? Repetition Level 用 于 记录 该 field 的 值 是 在 哪 一 个 深度 上 重复 
的 。 只 有 repeated 类 型 的 field 需要 Repetition Level，optional 和 required 类 型 的 不 需要 。Rep- 
etition Level =0 表示 开始 一 个 新 的 record。 在 关系 型 数据 中 ，repetition level 总 是 0。 所 以 对 
于 上 个 例子 ， Owner 为 0 ，ownerPhoneNumber 为 1 ，name 和 phoneNumber 都 是 1。 下面 是 更 
细致 的 表达 : 


Owner: 
Definition Level:0 叶子 结 点 ,所 以 定义 为 0 
Repetition Level:0 不 重复 

ownerPhone Number: 


Definition Level:1 因为 没有 子 结 点 了 ,所 以 定义 为 1 


Repetition Level:1 重复 


Name: 
Definition Level:1 此 时 不 可 以 为 0, 因 为 Contacts 可 能 不 存在 
Repetition Level:1 

phoneNumber:optional 
Definition Level:2 


Repetition Level 1 


通过 上 述 Definition Level 、Repetition Level 的 取 值 就 可 以 精准 地 判断 哪个 数据 一 定 在 什 
么 地 方 ， 以 及 映射 成 物理 结构 也 比较 容易 ， 具 体 写 到 磁盘 的 时 候 就 是 Definition Level、 
Repetion level 和 value 的 构成 。 

例如 : 如果 一 条 记录 是 如 下 的 数据 记录 ， 包 插 两 条 AddressBook ， 第 一 条 AddressBook 中 
有 两 个 联系 人 ， 其 中 第 一 个 联系 人 的 姓名 是 Spark ， 第 二 个 联系 人 的 电话 是 18610086859 ; 
第 二 条 AddressBook 为 空 。 


AddressBook | 
contacts: | 


name:" Spark" 
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| 


contacts: | 


phoneNumber: "18610086859" 


| 
AddressBook | 


| 


分 析 上 述 记 录 ， 如 图 4-4 中 ，R 表示 重复 级 别 ，D 表示 定义 级 别 。 对 于 name:" Spark" 
字段 : 其 R 重复 级 别 是 0， 表 示 是 一 个 新 的 record 记录 ， 从 根 开始 按照 schema 建立 结构 ，D 
定义 级 别 是 1，name 是 required 的 ， 因 此 不 需要 definition level， 所 以 沿用 contacts 的 级 别 1; 
对 于 phoneNumber:“18610086859” 字 段 : 其 R 重复 级 别 是 1， 表 示 在 第 一 级 插入 新 值 ， 即 
从 第 一 条 AddressBook 的 第 一 个 contacts 联系 人 之 后 插入 一 个 新 联系 人 记录 ，phoneNumber 是 
optional 的 ， 需 要 definition level， 这 里 D 定义 级 别 是 2; 对 于 第 二 条 AddressBook ， 其 R 重复 
级 别 是 0， 表示 是 一 个 新 的 record 记录 ，D 定义 级 别 也 是 0，null 表示 是 空 数据 。 


0 1 2 R D Value 
Phone 
AddressBook Number:null 0 1 “Spark” (name) 


contacts 


1 2 “18610086859” 


AddressBook 


0 0 null 


图 4-4 AddressBook 记录 的 序列 化 过 程 示 意图 


整理 上 述 两 条 AddressBook 的 通讯 信息 如 下 图 4-5 所 示 。 


Repetion level. Definition Level。 Valuees 


1。 2。 | 18610086859。 
0。 


“Spark”e 
NULL- 


图 4-5 Definition Level、Repetion level 和 Value 的 构成 表 


Parquet 的 Block 配置 及 数据 分 片 


接 下 来 讲解 在 Parquet 中 控制 Block 大 小 的 配置 参数 ， 以 及 在 Spark SQL 中 Parquet 进行 
数据 分 片 是 如 何 实现 的 。 通 过 在 Parquet 中 控制 Block 大 小 可 以 设置 更 加 适合 的 并 行 度 ，Par- 
quet 的 数据 分 片 主要 介绍 Parquet 数据 分 片 的 运行 机 制 。 
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Parquet 的 Block 的 配置 


ParquetOutputFormat 是 Parquet 框架 源 代 码 中 的 类 ，ParquetOutputFormat 继承 自 FileOut- 
putFormat， 在 创建 ParquetOutputFormat 实例 的 时 候 ， 涉 及 parquet. block. size 参数 的 配置 。 
parquet. block. size 这 个 参数 可 以 控制 Spark SQL 操作 Parquet 文件 时 候 写 人 磁盘 的 大 小 
数据 。 

如 何 对 parquet. block. size 进行 配置 ? 可 以 通过 SparkSQL 的 Conf 对 象 进行 配置 。 配 置 方 
法 为 : 


org. apache. spark. deploy. SparkHadoopUtil. get. conf. set(" parquet. block. size" , " new value" ) 


Parquet 的 读 写 是 以 Block 为 单位 的 ， 所 以 通常 建议 将 Block 大 小 设置 为 256 MB 或 者 128 
MB。 当 写 入 一 个 完整 的 Block 时 ， 由 于 在 实现 的 时 候 做 了 非常 大 的 cache ， 需 要 把 全 部 cache 
放 入 Executor 中 ， 这 样 Parquet 就 会 非常 耗 内 存 。 

Parquet 采用 了 非常 大 的 压缩 比例 ， 在 存储 的 时 候 对 内 存 和 磁盘 空间 的 占用 非常 小 ,但 
是 基于 Parquet 这 种 高 度 压 缩 的 数据 存储 格式 而 言 ， 每 次 把 Block 读 进 内 存 的 时 候 实际 数据 
是 parquet. block. size 设 定 值 大 小 的 好 几 倍 。 


Parquet 内 部 的 数据 分 片 a 


Spark 应 用 程序 在 Spark 集群 上 运行 ， 数 据 源 是 分 布 式 的 ，Spark 在 运行 时 在 不 同 的 结 点 
需 并 行 处 理 各 个 结 点 分 区 的 数据 。 例 如 ， 在 Hadoop 文件 中 ，Hadoop 文件 的 分 区 数 Split 的 大 
小 是 由 文件 的 总 大 小 和 分 区 数 决定 的 ;而 在 Parquet 中 ， 以 RowGroup 为 基本 单位 ， 
parquet. block. size 设置 parquet row group 大 小 ， 也 就 设置 了 分 区 的 大 小 ，Spark SqlNewHa- 
doopPartition 获取 的 分 区 是 从 Parquet 中 得 到 的 。 同 样 的 ，Spark 从 各 种 类 型 数据 源 (例如 
Hadoop 、Parquet、JDBC、RDD…) 根据 各 自 的 分 区 算法 获取 到 数据 源 的 数据 分 区 ， 数 据 分 
区 具备 数据 本 地 性 ， 数 据 存放 在 各 个 分 布 式 结 点 上 ，Spark 应 用 程序 就 要 在 各 个 结 点 上 并 行 
处 理 不 同 的 分 区 数据 ， 一 个 分 区 对 应 一 个 执行 任务 ， 有 多 少 个 分 区 就 有 多 少 个 任务 并 行 度 ， 
进行 分 布 式 计算 ,并 行 处 理 数据 更 快 。 

从 Parquet 的 角度 考虑 ， 在 做 分 片 的 时 候 ，Parquet 分 片 本 身 会 变 成 Partitions， 在 Spark 
SQL 的 源码 中 的 SqlNewHadoopPartition 类 会 继承 SparkPartition ， 在 SqlNewHadoopPartition 的 
getPartitions 中 的 inputFormatClass 实际 上 是 Parquet 包 中 的 ParquetInputFormat，getPartitions 中 
的 inputFormat 的 getSplits 是 ParquetInputFormat 的 getSplits， 在 Spark SQL 中 Parquet 覆盖 了 
SparkPartition 的 中 getSplits 的 默认 行为 。 


区 3 Parquet 序列 化 


本 节 介 绍 Parquet 序列 化 的 内 容 。 
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序列 化 是 指 把 对 象 转换 为 二 进 制 字 节 序列 ， 反 序列 化 是 指 把 二 进 制 字 节 序 列 恢复 为 
对 象 。 

例如 ，Spark 在 Task 执行 及 结果 处 理 中 执行 具体 Task 的 业务 逻辑 前 会 进行 4 次 反 序 
列 化 : 

1) TaskDescription 的 反 序 列 化 。 

2) 反 序 列 化 Task 的 依赖 。 

3) Task 的 反 序 列 化 。 

4) RDD 反 序 列 化 。 


区 Spark 实施 序列 化 的 目的 ) 


Spark 之 所 以 进行 序列 化 ， 最 重要 的 原因 是 内 存 空 间 有 限 (减少 GC 的 压力 ， 最 大 化 地 
避免 Full GC 的 产生 ， 因 为 一 旦 产生 Full GC ， 则 整个 Task 处 于 停止 状态 ) 、 减 少 磁盘 1/0 的 
压力 、 减 少 网 络 VO 的 压力 。 

什么 时 候 会 产生 序列 化 和 反 序 列 化 呢 ? 发 送 磁盘 LO 和 网 络 通信 的 时 候 会 序列 化 和 反 序 
列 化 ， 更 为 重要 的 需要 考虑 序列 化 和 反 序 列 化 有 另外 两 种 情况 ; 

a) Persist (Checkpoint) 的 时 候 必须 考虑 序列 化 和 反 序 列 化 ， 例 如 ， 缓 存 到 内 存 的 时 候 
只 能 使 用 JVM 分 配 的 60% 的 内 存 空 间 ， 此 时 好 的 序列 化 机 制 就 至 关 重 要 了 。 

b) 编程 的 时 候 。 使 用 算 子 的 函数 操作 ， 如 果 传 人 了 外 部 数据 ， 就 必须 执行 序列 化 和 反 
序列 化 。 


Parquet 两 种 序列 化 方式 


在 Spark SQL 中 ，Parquet 的 序列 化 和 反 序 列 化 有 两 种 方式 : 

1) 原生 的 ParquetRecordReader 序列 化 和 反 序 列 化 方式 : Spark SQL 的 Parquet 序列 化 和 
反 序 列 化 非常 消耗 时 间 ， 在 性 能 优化 的 时 候 ，Parquet 序列 化 和 反 序 列 化 一 般 要 在 Spark SQL 
读 写 文件 的 过 程 中 消耗 60% ~80% 的 时 间 。 

2) 优化 的 UnsafeRowParquetRecordReader 方式 ， 优 化 的 RecordReader 类 似 钨 丝 计 
划 ， 直 接 使 用 操作 系统 的 内 存 ， 这 样 就 省 掉 了 序列 化 与 反 序列 化 本 身 。 在 Spark 的 Sql- 
NewHadoopRDD 类 中 ， 如 果 开 启 了 spark. sql. parquet. enableUnsafeRowRecordReader，Spark 在 
计算 的 时 候 ， 进 行 布 尔 值 逻 辑 判断 ， 如 果 数 据 源 类 型 是 ParquetInputFormat，enableUnsafeR- 
owParquetReader 是 tue， 且 tryInitialize 初始 化 成 功 ， 就 创建 一 个 优化 的 RecordReader， 
即 UnsafeRowParquetRecordReader。 UnsafeRowParquetRecordReader 中 使 用 的 Row 为 Un- 
safeRow ，UnsafeRow 直接 操作 原生 内 存 ， 和 和 忽 丝 计划 一 样 ， 使 用 堆 外 内 存 , 减少 GC 的 
消耗 ， 减 少 Java 对 象 对 于 数据 包装 宛 余 的 存储 。 为 实际 上 在 Parquet 文件 中 具体 的 
flat 格式 里 面 会 有 很 多 比较 小 的 数据 ， 所 以 不 使 用 Java Object 去 封装 的 话 ， 就 可 以 节省 
很 多 的 空间 。 在 UnsafeRow 中 ， 直 接 操 作 Platform 内 存 备份 ， 这 样 就 省 略 掉 了 序列 化 和 
反 序 列 化 。 

原生 的 ParquetRecordReader 跟 UnsafeRowParquetRecordReader 有 什么 区 别 呢 ? 非常 显著 
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的 区 别 是 批量 反 序 列 化 ， 优 化 的 RecordReader 使 用 的 是 原生 内 存 ， 批 量 反 序列 化 ， 一 次 把 
row group 数据 读 进来 ， 这 就 极 大 地 提高 了 性 能 。 


攻守 本 章 小 结 


本 章 讲 解 了 Parquet 的 相关 基本 概念 ， 对 Parquet 数据 列 式 存储 格式 应 用 进行 举例 说 明 ; 
讲解 了 Parquet 的 Block 配置 及 数据 分 片 ，Parquet 序列 化 等 内 容 。 通 过 本 章 的 学 习 ， 读 者 可 
以 了 解 Parquet 列 式 存储 的 相关 原理 及 基础 知识 。 
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第 5 重 Spark SQL 内 置 限 数 与 窗口 卫 数 


Spark SQL 是 处 理 结构 化 数据 的 Spark 模块 ， 它 提供 了 DataFrame 这 种 编程 的 抽象 ， 同 时 也 可 
以 作为 分 布 式 SQL 查询 引擎 使 用 。 而 DataFrame 是 一 种 带 有 列 名 的 分 布 式 数 据 集 合 ， 我 们 可 以 把 
它 理 解 为 数据 库 中 的 一 张 表 或 者 R 语言 、Python 语言 中 的 DataFrame ， 不 过 Spark 在 其 底层 做 了 众 
多 优化 ， 我 们 可 以 使 用 结构 化 的 数据 文件 、 数 据 库 、 数 据 仓库 或 者 RDD 来 构造 出 DataFrame。 

在 Spark SQL 中 ,提供 了 大 量 的 内 置 函 数 对 数据 进行 分 析 。 与 Spark SQL 的 API 不 同 的 
是 ，DataFrame 中 的 内 置 函数 操作 的 返回 结果 是 Column 对 象 ， 这 说 明了 DataFrame 通过 列 来 
组 织 数据 的 分 布 式 数据 集 (A distributed collection of data organized into named columns ) ， 这 就 
为 相对 复杂 的 数据 分 析 提 供 了 极 大 地 便利 。 例 如 ， 我 们 在 操作 DataFrame 的 方法 中 ， 可 以 随 
时 调用 内 置 丽 数 进行 业务 数据 的 处 理 和 分 析 ， 这 对 于 我 们 构建 极为 复杂 的 业务 逻辑 算法 极 大 
地 减少 了 时 间 成 本 ， 可 以 让 开发 者 聚焦 于 数据 分 析 上 ， 对 提高 开发 效率 具有 重大 意义 。 


5 Spark SQL 内 置 函数 


ey Spark SQL 内 置 函 数 概 述 | 


从 Spark 1.5.x 开始 ，Spark SQL 提供 了 大 量 的 内 置 函 数 。 使 用 时 只 需 导 入 org, apache. spark. sql. 
functions 即 可 。Spark SQL 内 置 函数 包括 聚合 函数 、 集 合 函 数 、 日 期 时 间 隐 数 、 数 学 函数 、 窗 口 函 
数 、 字 符 串 函数 、 其 他 函数 等 各 类 函数 。 比 如 ， 在 处 理 业 务 数 据 时 ， 我 们 通常 离 不 开 agg 聚合 函数 ， 
使 用 count 、sum、avg、max 、min 等 操作 ， 需 要 对 数据 的 某 些 列 进行 分 组 ， 基 于 这 些 操 作 我 们 可 以 
完成 例如 时 间 范 围 内 商品 销量 统计 、 实 时 性 气象 指标 统计 甚至 更 为 复杂 的 数据 分 析 。 在 DataFrame 
的 API 中 有 许多 重 载 的 agg 函数 ， 下 面 是 Spark 1.6.0 下 DataFrame 类 中 agg 国 数 的 定义 ， 


def agg( expr: Column, exprs: Column * ) : DataFrame = groupBy( ). agg(expr，exprs : _* ) 
通过 这 段 定 义 大 致 可 以 看 出 DataFrame 的 agg 方法 都 需要 先 执行 调用 groupBy 方法 : 
def groupBy(cols: Column * ) : CroupedData = | 
GroupedDatal this, cols. map( . expr), GroupedData. GroupByType) 
| 
groupBy 函数 的 返回 值 为 GroupedData， 然 后 转 过 来 再 调用 GroupedData 类 中 的 agg 方法 : 
def agg( expr: Column, exprs: Column * ) : DataFrame = | 


toDF( (expr + : exprs). map(_. expr) ) 


| 
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在 org. apache. spark. sql functions 包 下 提供 了 大 量 的 内 置 函数 供 开 发 者 使 用 ， 总 体 上 可 
以 包含 如 下 类 型 ; 
1) 聚合 函数 ， 例 如 countDistinct、sumDistinct 等 。 
2) 集合 函数 ， 例 如 sort_array 、explode 等 。 > 
3) 日 期 时 间 函 数 ， 例 如 hour、quarter、next_day 等 。 
4) 数学 图 数 ， 例 如 asin、atan、sqrt、tan、round 等 。 
5) 窗口 函数 ， 例 如 row_number 、rank 等 。 
6) 字符 串 到 数 ， 例如 Concat format_number、 Tegexp_extract 等 。 
7) 其 他 函数 ， 例 如 isNan 、shal 、randn 、callUDF 等 。 
表 5-1 列 出 了 内 置 函 数 中 最 为 常见 的 agg 聚合 画 数 ， 其 他 函数 可 以 查阅 源 代 码 


org. apache. spark. sql. functions。 


表 5-1 内 置 函 数 中 最 为 常见 的 聚合 函数 


函数 定义 使 用 说 明 
approxCountDistinct( e: Column, rsd: Double) 返回 一 个 组 中 不 同 项 目的 近似 去 重 数 
approxCountDistinct(e: Column ) 
avg(e: Column) 返回 一 个 组 中 元 素 的 平均 值 
collect_list(e: Column) 返回 一 组 中 所 有 元 素 的 列表 ,包含 重复 元 素 
collect_set(e: Column) 返回 一 组 中 元 素 的 列表 ,不 包含 重复 值 
corr( columnl : Column column2: Column) 返回 两 列 的 相关 系数 
count(e: Column) 返回 一 个 组 中 元 素 的 数量 
countDistinct( expr:Column ,exprs: Column * ) 返回 一 个 组 中 的 不 同 元 素 的 数量 
first(e: Column) 返回 一 个 组 中 第 一 个 元 素 的 值 
kurtosis( e: Column) 返回 一 个 组 中 的 峰 度 
last(e: Column ) 返回 一 个 组 中 的 最 后 一 个 元 素 值 
max(e: Column) 返回 一 个 组 中 元 素 的 最 大 值 
mean(e: Column) 返回 一 个 组 中 元 素 的 平均 值 
min(e: Column) 返回 一 个 组 中 元 素 的 最 小 值 
skewness(e: Column) 返回 一 个 组 中 元 素 的 偏 斜 值 
stddev(e: Column ) 同 stddev_samp 
stddev_pop(e: Column) 返回 一 个 组 中 元 素 的 总 体 标准 差 
stddev_samp(e: Column) 返回 一 个 组 中 元 素 的 总 体 标准 差 
sum(e: Column) 返回 表达 式 中 所 有 值 的 总 和 
sumDistinct(e: Column) 返回 表达 式 中 不 同 值 的 总 和 
var_pop( e: Column) 返回 一 个 组 中 元 素 值 的 方差 
var_samp( e: Column) 返回 一 个 组 中 元 素 值 的 无 偏方 差 
variance( e: Column) 同 var_samp 
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本 节 介绍 两 个 Spark SQL 内 置 函 数 应 用 案例 : 
e 商品 订单 交易 查询 案例 ， 以 Scala 本 地 编程 的 方式 实现 。 
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e 电 商 交易 项 目 综合 案例 ， 以 Spark Shell 编程 方式 实现 。 

1. 商品 订单 交易 查询 案例 

下 面 我 们 通过 Scala 编程 的 方式 ， 以 一 定时 间 范 围 内 商品 订单 交易 为 例 ， 在 集成 开发 环 

境 中 熟悉 Spark 内 置 函数 的 简单 使 用 。 我 们 这 里 采用 的 是 Scala IDE ， 当 然 也 可 以 采用 IntelliJ 

IDEA 等 其 他 集成 开发 工具 。 

1) 创建 Spark 配置 对 象 SparkConf， 通 过 setAppName 方法 设置 应 用 程序 名 称 ，setMaster 
方法 设置 程序 要 链接 的 Spark 集群 的 Master URL， 这 里 设置 为 Local 模式 ， 这 就 代表 Spark 程 
序 在 本 地 运行 。 


val conf = newSparkConf( ) 
conf setAppName( " SparkSQLInlineFunction" ) 


conf setMaster( " local" ) 
2) 创建 SparkContext 对 象 ， 构 建 Spark SQL 的 上 下 文 。 


val sc = newSparkContext( conf) 
val sqlContext = new SQLContext( sc) 


这 里 需要 注意 的 是 ， 使 用 Spark SQL 内 置 图 数 ， 就 需要 以 import sqlContext implicits. _ 的 
方式 导入 SQLContext 下 的 隐 式 转换 的 内 容 。 

3) 这 里 我 们 手动 创建 一 些 数据 来 模拟 一 定时 间 范 围 内 商品 订单 交易 信息 ， 以 (交易 日 
期 ， 订 单 编号 ， 商 品 编号 ， 订 单 总 额 ) 为 模型 ， 在 实际 情况 下 会 比 模拟 的 数据 复杂 很 多 ， 
最 后 通过 parallelize 的 方式 构建 出 订单 RDD 分 布 式 集合 对 象 。 


val orderData = Array( 

"2016 -03 -27 ,000000001 ,00001230 ,1000" ， 
"2016 -03 -27 ,000000002 ,00001231 ,1600"， 
"2016 -03 -27 ,000000003 ,00001230 ,900" ， 
"2016 -03 -28 ,000000004 ,00001231 ,19" ， 
"2016 -03 -21 ,000000005 ,00001237 ,450" ， 
"2016 -03 -28 ,000000006 ,00001237 ,3400" ， 
"2016 -03 -28 ,000000007 ,00001231 ,400" ， 
"2016 -03 -28 ,000000008 ,00001234 ,112" ， 
"2016 -03 -26 ,000000009 ,00001231 ,900" ， 
"2016 -03 -26 ,000000010 ,00001234 ,100"， 
"2016 -03 -26 ,000000011 ,00001231 ,1001" ， 
"2016 -03 -28 ,000000012 ,00001236 ,2000"， 
"2016 -03 -26 ,000000013 ,00001231 ,3500" ， 
"2016 -03 -29 ,000000014 ,00001237 ,250" ， 
"2016 -03 -28 ,000000015 ,00001231 ,120" ， 
"2016 -03 -29 ,000000016 ,00001238 ,240" ， 


并 让 天 和 Spark SQL 内 置 函 数 与 窗口 函数 


"2016 -03 -25 ,000000017 ,00001231 ,370"， 
"2016 -03 -21 ,000000018 ,00001230 ,299" 


val orderDataRDD = sc. parallelize( orderData ) 二 


4) 对 业务 数据 进行 预 处 理 生 成 DataFrame ， 将 创建 的 RDD 转换 为 DataFrame， 这 里 把 数 
组 中 的 每 个 Sting 类 型 用 逗号 切 分 生成 Row 类 型 。 


val orderDataRDDRow = orderDataRDD. map( 
row => | 
val splited = row. split(",") 
Row(splited(0) ,splited( 1) ,splited (2) ,splited(3). toInt) 


) 

val structTypes = StructType( Array( 
StructField("trade_date" ，StringType，true ) ， 
StructField(" order_no" ，StringType，true ) ， 
StructField( " product_no" , StringType, true), 
StructField( " amount" , IntegerType, true) 


)) 


val orderDataDF = sqlContext. createDataFrame( orderDataRDDRow ,structTypes ) 


5) 使 用 Spark SQL 提供 的 内 置 函 数 对 DataFrame 进行 操作 。 需 要 注意 的 是 ， 内 置 函 
数 生成 的 是 Column 对 象 并 且 采 用 字 节 码 生 成 技术 ( Bytecode Generaction ，BG) 的 方式 ， 
在 Spark SQL 执行 物理 计划 的 时 候 对 匹配 的 表达 式 采 用 特定 的 代码 ,动态 编 辑 ， 然 后 
运行 。 

这 里 使 用 的 Spark SQL 内 置 函数 ; 

e countDistinct 函数 : 该 函数 是 内 置 函数 中 的 聚合 函数 ， 返 回 组 中 不 同 项 的 个 数 。 

e agg 函数 : 这 里 通过 指定 一 系列 聚合 列 计算 聚合 。 
然后 基于 构建 的 DataFrame 对 数据 进行 分 析 ， 我 们 按 日 期 统计 每 天 成 交 多 少 种 商品 : 
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orderDataDF. groupBy( "trade_date" ) 


. agg\ trade_date, countDistinct( product_no). as( "product_number" ) ) 


. show 


运行 代码 并 查看 结 


+ + + 


trade_date | trade_date | product_number | 


和 + + + 
2016 -03 -21 |2016 -03 -21 | | 
2016 -03 -25 | 2016 -03 -25 | 1 | 
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| 2016 -03 -26 | 2016 -03 -26 | 2| 
|2016 -03 -27 | 2016 -03 -27 | 2| 
| 2016 -03 -28 | 2016 -03 -28 | 4 | 
| 2016 -03 -29 | 2016 -03 -29 | 2| 
十 十 


我 们 再 统计 一 下 每 天 订单 成 交 总 额 : 


orderDataDF. groupBy( " trade_date" ) 


. agg\ trade_date, sum\ amount). as( "sum_amount" ) ). show 


运行 代码 并 查看 结 


orderDataDF. groupBy( " trade_date" ). 
orderDataDF. groupBy( "trade_date" ). 
orderDataDF. groupBy( "trade_date" ). 
orderDataDF. groupBy( "trade_date" ). 


上 述 写 法 中 的 内 置 函 数 包括 : 
e min 函数 : 内 置 函 数 中 的 聚合 函数 ， 返 回 组 中 表达 式 的 最 小 值 。 
® agg 函数 : 这 里 通过 指定 列 名 的 映射 来 计算 聚合 的 方法 。 由 此 产生 的 DataFrame 将 包 
含 分 组 列 。 可 用 的 聚合 方法 是 avg，max，min，sum，count (“ 平 均值 ” “最 大 值 ” 
“最 小 值 ” “总数 ”“ 计 数 ”) 。 
2. 电 商 交易 项 目 综合 案例 : 
本 案例 进行 电 商 交易 项 目 综合 查询 应 用 : 
1) 在 Hive 中 创建 数据 库 及 数据 库 表 ， 在 tbDate 日 期 分 类 表 、 订 单 表 tbStock 、 订 单 明 
细 表 tbStockDetail 中 加 载 相 应 的 数据 记录 。 
2) 使 用 Spark SQL 基于 Hive 数据 库 表 进行 查询 统计 : 查询 订单 表 tbStock 中 的 记录 数 ， 


agg( min( amount) ) 
agg( " amount" 一 > "min" 
agg( Map( "amount" —> "min" ) ) 


agg( min($" amount" ) ) 


+ + 
trade_date | trade_date | sum_amount | 
+ + 
2016 -03 -21 |2016 -03 -21 749 
2016 -03 -25 | 2016 -03 -25 370 
2016 -03 -26 |2016 -03 -26 5501 
2016 -03 -27 | 2016 -03 -27 3500 
2016 -03 -28 | 2016 -03 -28 6051 
2016 -03 -29 | 2016 -03 -29 490 
+ + 


注意 : 由 于 Spark 的 版 本 的 不 断 升 级 ， 对 于 聚合 函数 参数 的 写法 都 有 所 不 同 ， 这 里 归纳 
出 几 种 常见 的 写法 : 
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查询 订单 明细 表 tbStockDetail 中 的 记录 数 。 

3) 在 复杂 统计 中 ， 我 们 使 用 内 置 函 数 sum 函数 来 统计 每 年 每 个 商品 的 销量 总 额 并 注册 
为 临时 表 Tl 。 

4) 在 此 基础 上 ,我 们 使 用 内 置 函数 max 函数 查询 出 每 年 的 最 大 销售 总 额 ， 并 注册 为 临 > 
时 表 T2。 

5) 基于 上 两 步 的 临时 表 ， 通 过 年 份 (Tl 表 中 的 theyear) 、 商 品 销量 总 额 (Tl1 表 中 的 
year_amount) ，T2 表 中 的 最 大 销售 总 额 (max_year_amount) ， 关 联 查询 出 所 有 订单 中 每 年 的 
畅销 商品 。 
1) 除去 过 多 的 日 志 ， 通 过 Apache 的 Log4J 设置 日 志 消 息 的 级 别 。 


import org. apache. log4j. | Level, Logger! 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 


2) 初始 化 HiveContext， 这 里 需要 注意 两 点 : 当前 Spark 的 版 本 是 否 文 持 Hive， 其 次 
Hive 的 配置 文件 hive - site. xml 已 经 存放 到 Spark 主 目录 的 conf 目录 下 。 


val hiveContext = new org. apache. spark. sql. hive. HiveContext( sc ) 


3) 创建 数据 库 和 数据 表 。 
在 Hive 中 创建 一 个 数据 库 SALEDATA ， 用 于 存放 数据 表 。 


create database SALEDATA ; 


16/04/28 21:08:29 INFO parse. ParseDriver: Parsing command: create database SALEDATA 
16/04/28 21:08:30 INFO parse. ParseDriver: Parse Completed 


16/04/28 21:08:37 INFO log. PerfLogger: </PERFLOG method = Driver. run start = 1461848912133 
end = 1461848917561 duration =5428 from = org. apache. hadoop. hive. ql. Driver > 


res0: org. apache. spark. sql. DataFrame = | result: string | 
使 用 这 个 数据 库 SALEDATA : 


use SALEDATA; 


16/04/28 21 :09.23 INFO parse. ParseDriver: Parsing command: use SALEDATA 
16/04/28 21 :09 .23 INFO parse. ParseDriver: Parse Completed 


16/04/28 21:09:24 INFO log. PerfLogger: </PERFLOG method = Driver. run start = 1461848963818 
end = 1461848964117 duration =299 from = org. apache. hadoop. hive. ql. Driver > 


resl : org. apache. spark. sql. DataFrame = | result: string | 


创建 表 tbDate ， 这 个 表 定 义 了 日 期 的 分 类 . 
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create table tbDate ( 

dateID STRINC ， 

theyearmonth STRINC ， 

theyear STRINC ， 

themonth STRINC ， 

thedate STRING, 

theweek STRING, 

theweeks STRING, 

thequot STRING, 

thetenday STRING, 

thehalfmonth STRING 

) ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ， 
LINES TERMINATED BY \n; 


16/04/28 21:12:25 INFO parse. ParseDriver: Parsing command : create table tbDate ( dateIDSTRING, 
theyearmonth STRING ,theyear STRING ,themonth STRING ,thedate STRING ,theweek STRING, 
theweeks STRINC , thequot STRING ,thetenday STRINC ,thehalfmonth STRING) ROW FOR- 
MAT DELIMITED FIELDS TERMINATED BY ,LINES TERMINATED BY 

16/04/28 21:12:2S INFO parse. ParseDriver: Parse Completed 


16/04/28 21:12 :26 INFO ql. Driver: Starting command( queryId = root 20160428211225 5868fl134 — 
d61d -4217 - a584 - 6974a2ce1807 ) : create table tbDate (datelD STRING, theyearmonth 
STRING, theyear STRING, themonth STRING, thedate STRING, theweek STRING, theweeks 
STRING ,thequot STRING, thetenday STRING, thehalfmonth STRING) ROW FORMAT DE- 
LIMITED FIELDS TERMINATED BY ', LINES TERMINATED BY 


16/04/28 21:12:26 INFO log. PerfLogger: </PERFLOG method = Driver. run start = 1461849145766 
end = 1461849146808 duration = 1042 from = org. apache. hadoop. hive. ql. Driver > 
res4: org. apache. spark. sql. DataFrame = | result: string | 


创建 表 tbStock， 这 个 表 定 义 了 订单 的 信息 : 


create table tbStock ( 
ordernumber STRINC ， 

locationID STRINC ， 

dateID STRINC 

) ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ， 
LINES TERMINATED BY NA ; 
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16/04/28 21:14:00 INFO parse. ParseDriver: Parsing command: create table tbStock (ordernumber 
STRING ,locationID STRING , dateID STRING) ROW FORMAT DELIMITED FIELDS TERMI- 
NATED BY ', LINES TERMINATED BY 


16/04/28 21:14:01 INFO log. PerfLogger: </PERFLOG method = Driver. run start = 1461849240847 
end = 1461849241040 duration = 193 from = org. apache. hadoop. hive. ql. Driver > 


res5 : org. apache. spark. sql. DataFrame = | result: string | 
创建 表 tbStockDetail， 这 个 表 定 义 了 订单 的 明细 : 


create table tbStockDetail ( 
ordernumber STRING, 

rownum INT， 

itemID STRING, 

qty INT， 

price INT, 

amount INT 

) ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ，, 
LINES TERMINATED BY Na ; 


16/04/28 21:15 :33 INFO parse. ParseDriver: Parsing command : create table tbStockDetail (ordernum- 
ber STRING ,rownum INT,itemID STRING ,qty INT,price INT, amount INT) ROW FORMAT 
DELIMITED FIELDS TERMINATED BY ', LINES TERMINATED BY 


1 


16/04/28 21:1$:33 INFO parse. ParseDriver: Parse Completed 


16/04/28 21:15:34 INFO log. PerfLogger: </PERFLOG method = Driver run start = 1461849333222 
end = 1461849334086 duration =864 from = org. apache. hadoop. hive. ql. Driver > 


res6: org. apache. spark. sql. DataFrame = | result: string | 


4) 分 别 加 载 tbDate. txt、tbStock. txt、tbStockDetail. txt 这 3 个 数据 文件 至 tbDate、itb- 
Stock 、tbStockDetail 表 中 。 


LOAD DATA LOCAL INPATH /root/ Downloads/ data/ ebusiness/ tbDate. txt OVERWRITE INTO TA- 
BLE tbDate ; 

LOAD DATA LOCAL INPATH /root/ Downloads/ data/ ebusiness/ tbStock. txt OVERWRITE INTO TA- 
BLE tbStock ; 

LOAD DATA LOCAL INPATH /root/ Downloads/ data/ ebusiness/ tbStockDetail. txt OVERWRITE IN- 
TO TABIE tbStockDetail; 


注意 : 这 里 通过 OVERWRITE INTO 实现 覆盖 表 原 有 的 数据 的 目的 。 
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5) 查询 统计 。 

在 订单 表 tbStock 中 的 记录 数 以 及 订单 明细 表 tbStockDetail 中 的 记录 数 的 查询 中 没 使 用 
到 Spark SQL 内 置 了 水 数 ， 我 们 通过 普通 的 select 查询 语句 进行 查询 。 

@ 查询 订单 表 tbStock 中 的 记录 数 : 


SELECT * FROM tbStock 


scala > hiveContext. sql(" SELECT * FROM tbStock" ). count; 

16/04/28 21:22:18 INFO parse. ParseDriver: Parsing command: SELECT * FROM tbStock 

16/04/28 21:22:18 INFO parse. ParseDriver: Parse Completed 

16/04/28 21:22:20 INFO Configuration. deprecation : mapred. map. tasks is deprecated. Instead, use 
mapreduce. job. maps 

16/04/28 21:22:22 INFO mapred. FileInputFormat: Total input paths to process : 1 

res10: Long =21154 


@) 查询 订单 明细 表 tbStockDetail 中 的 记录 数 . 


SELECT x FROM tbStockDetail 


scala > hiveContext. sql(" SELECT * FROM tbStockDetail" ). count; 

16/04/28 21:23 :56 INFO parse. ParseDriver: Parsing command: SELECT * FROM tbStockDetail 
16/04/28 21:23 :56 INFO parse. ParseDriver: Parse Completed 

16/04/28 21:23:56 INFO mapred. FileInputFormat : Total input paths to process : 1 

resll: Long =287950 


6) 复杂 统计 。 

本 闻 中 我 们 将 使 用 内 置 丽 数 sum 函数 来 统计 每 年 每 个 商品 的 销量 总 额 ; 使 用 内 置 函 数 
max 函数 查询 出 每 年 的 最 大 销售 总 额 。 

Q 查询 出 每 年 每 个 商品 的 销量 总 额 。 

每 个 订单 可 能 对 应 不 同 的 商品 ， 所 以 需要 通过 订单 表 tbStock 和 订单 明细 表 tbStockDetail 
中 的 ordernumber 字段 进行 关联 。 

时 间 维 度 上 需要 根据 年 来 统计 销量 总 额 ， 而 由 Date 定义 了 日 期 的 分 类 信息 ， 如 年 、 月 、 
日 等 ， 网 时 为 从 下 局 人 2 结语 了 查询 ， 所 以 需要 根据 订单 表 tbStock 中 的 dateID 下 
单 时 间 ID 和 tbDate 进行 关联 ， 这 样 就 需要 关联 3 张 表 。 


SELECT 
c. theyear ,b. itemID ， 
sum( b. amount ) as year_amount 
FROM 
tbStock a,tbStockDetail b ,tbDate c 
WHERE a. ordernumber =b. ordernumber AND 
a. datelD =c. dateID 
CROUP BY c. theyear ,b. itemID 


a 
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这 ;于 二 和 Spark SQL 内 置 


我 们 将 这 个 DataFrame 注册 为 临时 表 Tl 以 供 后 续 使 用 ， 其 中 year_amount 为 每 年 每 个 商 
口 口 品 的 销量 总 额 。 


scala >val DF1 = hiveContext. sql( "SELECT c. theyear,b. itemID ,sum(b. amount ) as year_amount FROM 二 
tbStock a, tbStockDetail b ,tbDate ec WHERE a. ordernumber = b. ordernumber AND 
a datelD =c. dateID GROUP BY c. theyear,b. itemID" ) ; 
16/04/28 21:28:03 INFO parse. ParseDriver: Parsing command :SELECT c. theyear,b. itemID ， 
sum( b. amount ) as year_amount FROM tbStock a,tbStockDetail b ,tbDate c WHERE 
a. ordernumber = b. ordernumber AND a. dateID = c. dateID CROUP BY c. theyear,b. itemID 
16/04/28 21:28:03 INFO parse. ParseDriver: Parse Completed 


DF1 :org. apache. spark. sql. DataFrame = [ theyear:string ,itemID :string , year_amount: bigint | 


scala > DF1. registerTempTable("T1" ); 

scala > DF1. show 

16/04/28 21:28:58 INFO mapred. FilelnputFormat :Total input paths to process :1 
16/04/28 21:28:58 INFO mapred. FileInputFormat :Total input paths to process :1 
16/04/28 21:29:00 INFO mapred. FilelnputFormat :Total input paths to process :1 


十 十 
theyear itemID year_amount 

十 十 
2006 ZM5132963W0101 698 
2006 MD215300610101 21102 
2006 E2526248175402 5162 
2006 YA214339030101 8291 
2006 DF123303080209 330 
2006 W2214336710201 866 
2006 DF124390290702 1616 
2006 ZX124385510101 299 
2006 04424449110101 2134 
2006 01326496590101 5813 
2007 YL324467200201 2494 
2007 G4325338953202 1146 
2007 YA214373080101 8173 
2007 BF127121990402 12199 
2007 YA214352210101 5298 
2007 YL524212313002 1423 
2007 CL126361160104 696 
2007 24125311990102 594 
2007 84526257690112 2310 
2007 77627236030106 16987 

十 十 


only showing top 20 rows 


@) 查询 出 每 年 的 最 大 销售 总 额 。 
在 上 一 步 查 询 的 基础 之 上 对 theyear 进行 分 组 ， 运 用 max 此 合计 算出 每 年 最 大 销售 总 额 ， 


代码 如 下 : 


SELECT 

T1. theyear， 

max(T1. year_amount ) as max_year_amount 
FROM Tl 

CROUP BY T1. theyear 


我 们 将 这 个 DataFrame 注册 为 临时 表 T2 以 供 后 续 使 用 ， 其 中 max_year_amount 为 每 年 的 
最 大 销售 总 额 ， 代 码 如 下 : 


scala > val DF2 = hiveContext. sql( "SELECT TI1. theyear ,max(T1. year_amount ) as max_year_amount 
FROM T1 GROUP BY TI1. theyear" ) ; 

16/04/28 21:32:44 INFO parse. ParseDriver: Parsing command: SELECT TI1. theyear, max( Tl1. year_ 
amount)as max_year_amount FROM T1 GROUP BY T1. theyear 

16/04/28 21:32:44 INFO parse. ParseDriver: Parse Completed 

DF2 :org. apache. spark. sql. DataFrame = [ theyear: string, max_year_amount: bigint | 

scala > DF2. registerTempTable("T2" ) ; 

scala > DF2. show; 

16/04/28 21:33:12 INFO mapred. FileInputFormat :Total input paths to process:1 

16/04/28 21:33:12 INFO mapred. FileInputFormat :Total input paths to process:1 

16/04/28 21:33:14 INFO mapred. FilelnputFormat:Total input paths to process:1 


十 十 
theyear max_year_amount 

十 十 
2004 53374 
2005 56569 
2006 113684 
2007 70226 
2008 97981 
2009 30029 
2010 4494 

十 十 


@) 查找 出 所 有 订单 中 每 年 的 畅销 商品 。 

基于 上 两 步 的 临时 表 通 过 年 份 (Tl 表 中 的 theyear) 和 统计 出 的 商品 销量 总 额 (Tl 表 中 
的 year_amount 和 T2 表 中 的 max_year_amount) 

将 TI 和 12 进行 关联 ， 目 的 是 为 了 查找 商品 的 信息 ， 代 码 如 下 : 


SELECT 
T1. theyear， 


并 萌 沁 Soark SQL 内 置 函数 与 窗口 函数 


T1. itemID ， 
T2. max_year_amount 
上 FROM 
T1,12 O) 
WHERE Tl. theyear =T2. theyear AND 
T1. year_amount = T2. max_year_amount 


ORDER BY TI1. theyear 


16/04/28 21:45 :07 INFO parse. ParseDriver: Parsing command: SELECT TI1. theyear, T1. itemID ， 
T2. max_year amount FROM T1,T2 WHERE Tl. theyear =T2. theyear AND 
T1. year_amount = T2. max_year_amount ORDER BY TI1. theyear 

16/04/28 21:45:07 INFO parse. ParseDriver: Parse Completed 


16/04/28 21:45:11 INFO mapred. FilelnputFormat: Total input paths to process:1 
16/04/28 21:45:11 INFO mapred. FilelnputFormat: Total input paths to process:1 
16/04/28 21:45:11 INFO mapred. FilelnputFormat: Total input paths to process:1 
16/04/28 21:45:11 INFO mapred. FilelnputFormat:Total input paths to process:1 
16/04/28 21:45:18 INFO mapred. FilelnputFormat :Total input paths to process:1 
16/04/28 21:45:18 INFO mapred. FilelnputFormat: Total input paths to process:1 
+ + + + 
theyear itemID max_year_amount 
+ + + 
2004 JY424420810101 53374 
2005 24124118880102 56569 
2006 JY425468460101 113684 
2007 JY425468460101 70226 
2008 E2628204040101 97981 
2009 YL327439080102 30029 
2010 SQ429425090101 4494 
+ + + 
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Spark SQL 窗口 函数 概述 


窗口 函数 ， 也 可 以 称 之 为 开 窗 函 数 或 者 分 析 函 数 。 窗 口 函 数 (OVER 子 句 ) 为 行 定义 
一 个 窗口 (将 要 操作 的 行 的 集合 ) ， 它 对 一 组 值 进行 操作 ， 不 需要 使 用 GROUP BY 子 句 对 数 
据 进 行 分 组 ， 能 够 在 同一 行 中 同时 返回 基础 行 的 列 和 聚合 列 。 相 对 于 窗口 函数 ，SQL 聚合 函 
数 以 GROUP BY 查询 对 一 组 值 进 行 聚合 (例如 sum，avg，count 等 操作 ) ， 对 数据 进行 分 组 
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后 ， 对 每 个 组 查询 只 返回 一 行 数 据 ， 不 能 同时 返回 基础 列 的 数据 ， 只 能 得 到 聚合 列 。 

一 般 来 说 ， 传 统 的 关系 型 数据 库 在 聚合 操作 之 后 的 行 数 都 要 小 于 聚合 前 的 行 数 ， 对 于 窗 
口 函数 而 言 ， 操 作 前 后 的 行 数 都 是 相等 的 。 例 如 ， 我 们 要 根据 不 同 手机 品牌 下 的 不 同型 号 进 
行 分 类 并 统计 其 个 数 ， 比 如 苹果 手机 有 5 种 不 同型 号 ， 华 为 手机 有 4 种 不 同 的 型 号 ， 采 用 聚 
合 函 数 统计 时 会 产生 两 条 记录 ， 而 采用 窗口 函数 统计 则 会 生成 9 条 记录 ， 即 每 一 行 都 会 产生 
窗口 函数 的 结 

在 窗口 函数 出 现 之 前 存在 着 很 多 用 SQL 语句 很 难 解决 的 问题 ， 往 往 很 多 复杂 的 查询 都 
要 通过 相关 子 查 询 或 者 复杂 的 存储 过 程 来 完成 。 直 到 后 来 一 些 传统 意义 上 的 关系 型 数据 库 引 
入 了 窗口 丽 数 ， 使 得 这 些 复杂 的 查询 变 得 尤为 容易 。 所 谓 窗口 就 是 指 用 户 指定 的 一 组 行 。 窗 口 
函数 计算 从 窗口 派生 的 结果 集中 各 行 的 值 ， 分 别 应 用 于 每 个 分 区 ， 并 为 每 个 分 区 重新 启动 计算 。 

Spark SQL 也 为 我 们 提供 了 大 量 的 窗口 函数 ， 如 表 5-2 所 示 : 


表 5-2 常用 的 窗口 函数 


函数 名 称 函数 功能 
cume_dist( ) 返回 窗口 分 区 内 的 累积 值 分 布 ， 例 如 在 当前 行 下 的 行 分 片 
返回 窗口 分 区 中 的 行 的 排名 ， 排 名 无 间隔 。 密 集 排名 和 排名 的 区 别 : 例如 ， 第 一 名 有 
dense_rank( ) 1 人 ,第 二 名 并 列 有 3 人 ， 那 么 在 密集 排名 中 下 一 个 人 的 排名 是 第 三 名 ; 而 在 一 般 排名 
中 ， 下 一 个 人 是 第 五 名 
lag( Column e,int offset ) 返回 当前 行 offset 之 前 的 行 的 值 ， 如 果 当 前 行 之 前 的 行 少 于 offset 行 ， 回 null 值 


返 
lag( Column e,int offset, Object 如 果 当 前 行 之 前 的 行 少 于 offset 行 ， 返回 null 值 


Ni i 
defaultValue) 返回 当前 行 offset 之 前 


否 
本 
本 


lag( String columnName ,int off- 
set ) 


返回 当前 行 offset 之 育 


ey 
一 人 
可 


的 行 的 值 ， 如 果 当 前 行 之 前 的 行 少 于 offset 行 ， 返 回 null 值 


lag( String columnName ,int off- 
set, Object defaultValue) 


返回 当前 行 offset 之 前 的 行 的 值 ， 如 果 当 前 行 之 前 的 行 少 于 offset 行 ， 返回 null 值 


lead( Column e,int offset) 返回 当前 行 offset 之 后 的 行 的 值 ， 如 果 当 前 行 之 后 的 行 少 于 offset 行 ， 返 回 null 值 


lead ( Column e, int offset, Ob- 
jectdefaultValue ) 


返回 当前 行 offset 之 后 的 行 的 值 ， 如 果 当 前 行 之 后 的 行 少 于 offset 行 ， 返回 null 值 


lead ( Sbing columnName ，int 


offset ) 返回 当前 行 offset 之 后 的 行 的 值 ， 如 果 当 前 行 之 后 的 行 少 于 offset 行 ， 返回 null 值 


lead ( String columnName, int 


. 返回 当前 行 offset 之 后 的 行 的 值 ， 如 果 当 前 行 之 后 的 行 少 于 offset 行 ， 返回 null 值 
offset ,Object defaultValue) 


ntile( int n) 


返 
在 一 个 有 序 的 窗口 分 区 返回 ntile 组 ID (从 1 到)。 例 如， 如 果 n 是 4， 第 一 部 分 的 
将 


行将 得 到 值 1， 第 二 部 分 行将 获得 值 2， 第 三 部 分 将 获得 值 3 ， 而 最 后 一 部 分 获得 值 4 
percent_rank( ) 返回 相对 排名 等 同 于 SQL 的 percent_rank 功能 
rank( ) 返回 窗口 分 区 中 的 行 的 排名 
row_number( ) 返回 在 窗口 分 区 中 从 1 开始 的 序列 号 


Spark SQL 窗口 函数 的 语法 如 下 : 


functionName( ) OVER (PARTITION BY columnl ,column2 ,…columnN ORDER BY 
fieldl ,field2 ,field3 ) AS alias; 


OVER 关键 字 表 示 把 函数 当成 窗口 函数 而 不 是 聚合 函数 。 对 于 查询 结果 的 每 一 行 都 返回 
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所 有 符合 条 件 的 行 的 条 数 。OVER 关键 字 后 的 括号 中 还 经 常 添加 选项 ， 用 于 改变 进行 聚合 运 
算 的 窗口 范围 。 如 果 OVER 关键 字 后 的 括号 中 的 选项 为 空 ， 则 窗口 函数 会 对 结果 集中 的 所 
有 行进 行 聚合 运算 。 


从 语法 层面 上 来 看 ，Spark SQL 窗口 函数 和 传统 的 关系 型 数据 下 的 窗口 函数 的 写法 基本 > 
一 致 。 


Spark SQL 窗口 函数 分 数 查询 统计 案例 ) 


本 节 数 学 考试 分 数 查 询 案 例 中 ， 将 综合 应 用 Spark SQL 的 窗口 函数 ， 例 如 :row_number( )、 
rank( ) 、percent_rank( ) 、tile、cume_dist、lag、lead 等 图 数 ， 统 计 班 级 内 每 位 同学 考试 成 绩 
的 名 次 、 百 分 比 排名 及 相关 统计 功能 : 

1) 将 考试 分 数 文件 上 传 到 HDFS 系统 (考试 分 数 文件 数据 信息 如 表 5-3 所 示 ) 。 

表 5-3 考试 分 数 数 据 信 息 


班级 classNo 
学 生 姓 名 studentName 
成 绩 Score 


2) 启动 Hive metastore 服务 ， 启 动 Spark shell 。 

3) 创建 hiveContext， 创 建 数据 库 表 math_score， 将 HDFS 分 数 文件 加 载 到 Hive 数据 库 
表 中 。 

4) 使 用 窗口 函数 查询 班级 内 每 位 同学 的 考试 排名 情况 。 

1. 将 考试 分 数 文件 上 传 到 HDFS 系统 并 将 HDFS 分 数 文件 加 载 到 Hive 数据 库 表 

1) 在 HDFS 中 创建 文件 夹 ， 代 码 如 下 。 


root@ Master:/usr/local/hive/apache — hive ~ 1.2. 1 — bin/bin# hadoop dfs ~ mkdir ~p 
/library/ SparkSQL/function/ mathscore 
DEPRECATED :Use of this script to executehdfs command is deprecated. 
Instead use thehdfs command for it. 
16/04/23 17:35:00 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your 


platform. .. using builtin - java classes where applicable 
2) 将 数据 文件 math_score. txt 上 传 到 HDFS 中 ， 代 码 如 下 。 


root@ Master:/usr/local/hive/apache — hive ~ 1.2. 1 — bin/ bin# hadoop dfs — put 
/root/ Downloads/ data/ math_score. txt/library/ SparkSQL/function/ mathscore 
DEPRECATED :Use of this script to executehdfs command is deprecated. 
Instead use thehdfs command for it. 
16/04/23 17:37:40 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your 


platform. . using builtin - java classes where applicable 


3) 启动 Hive 的 metastore 服务 ， 代 码 如 下 。 
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root@ Master:/usr/local/ hive/apache — hive — 1.2.1 -=- bin/bin# hive —— service metastore > metas- 


tore. log 2 >& 1& [1] 4518 


4) 进入 Spark 的 sbin 下 启动 Spark 集群 ， 代 码 如 下 。 


root@ Master:/usr/local/ spark/ spark — 1. 6. 3 -bin -hadoop2. 6/sbin# . /start - all. sh 

starting org. apache. spark. deploy. master. Master ,logsging to /usr/local/ spark/spark -1.6.3 -bin -= 
hadoop2. 6/logs/ spark — root — org. apache. spark. deploy. master. Master -1 — Master. out 

Worker2 :starting org. apache. spark. deploy. worker. Worker ,logging to /usr/ local/ spark/spark —1.6.3— 
bin - hadoop2. 6/logs/ spark - root — org. apache. spark. deploy. worker. Worker -1 — Worker2. out 

Workerl :starting org. apache. spark. deploy. worker Worker ,logging to /usr/ local/ spark/spark —1.6.3— 
bin - hadoop2. 6/logs/ spark — root — org. apache. spark. deploy. worker. Worker -1 — Workerl. out 


5) 进入 Spark 的 bin 目录 下 ,采用 . /spark - shell -- master spark://Master:7077 启动 
Spark — Shell。 
6) 创建 hiveContext 上 下 文 。 


scala > val hiveContext = new org. apache. spark. sql. hive. HiveContext( sc) 

16/04/23 17.:.47:58 INFO hive. HiveContext: Initializing execution hive ,version 1.2.1 

16/04/23 17:47:58 INFO client. ClientWrapper: Inspected Hadoop version:2. 6.0 

16/04/23 17:47:58 INFO client. ClientWrapper: Loaded org. apache. hadoop. hive. shims. 
Hadoop23Shims for Hadoop version 2. 6.0 

16/04/23 17.:.47:59 INFO hive. metastore : Mestastore configuration hive. metastore. 
warehouse. dir changed from file:/tmp/spark — ada2fb30 -77ad -415a — a2d9 — a29flfe562be/ 
metastore to file:/tmp/spark - c01e398a -4bc4 -4411 - ab4d -fb7c5679459c/ metastore 

16/04/23 17 :47:59 INFO hive. metastore :Mestastore configuration javax. jdo. option. ConnectionURL 
changed from jdbc:derby: ;databaseName = /tmp/spark - ada2fb30 -77ad -41Sa — a2d9 
a29flfe502be/metastore; create = true to jdbc:derby: ;databaseName =/tmp/spark - c01e398a — 
4bc4 -4411 -ab4d -fb7c5679459c/ metastore ;create = true 

16/04/23 17.:.47:59 INFO metastore. HiveMetaStore:0:Shutting down the object store. . . 


hiveContext :org. apache. spark. sql. hive. HiveContext = org. apache. spark. sql. hive. HiveContext@ 3683c47f 


7) 创建 数据 表 ， 代 码 如 下 : 


scala > hiveContext. sql( "create table math_score( classNo STRING ,studentName STRING , score INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY' ，LINES TERMINATED BY' \n ") 

16/04/23 17:51:21 INFO parse. ParseDriver:Parsing command : create table math_score( classNo 
STRINGC ,studentName STRINGC ,score INT) ROW FORMAT DELIMITED FIELDS 
TERMINATED BY' ; LINES TERMINATED BY 


1 


16/04/23 17:51:21 INFO parse. ParseDriver:Parse Completed 


16/04/23 17:51:26 INFO log. PerfLogger: </PERFLOG method = Driver run start = 1461405081957 
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end = 1461405086780 duration = 4823 from = org. apache. hadoop. hive. ql. Driver > 


res6 :org. apache. spark. sql. DataFrame = [ result:string | 
8) 加 载 数 据 ， 代 码 如 下 : 人 


scala > hiveContext. sql ( " LOAD DATA INPATH' /library/SparkSQL/function/ mathscore/math _ 
score. txt' 
INTO TABLE math_score" ) ; 
16/04/23 18:10:17 INFO parse. ParseDriver: Parsing command :LOAD DATA INPATH 
' /library/ SparkSQL/ function/ mathscore/ math_score. txt INTO TABLE math_score 
16/04/23 18:10:17 INFO parse. ParseDriver: Parse Completed 


16/04/23 18:10:21 INFO log. PerfLogger: </PERFLOG method = Driver. run start = 1461406217913 
end = 1461406221416 duration =3503 from = org. apache. hadoop. hive. ql. Driver > 


res4 :org. apache. spark. sql. DataFrame = [ result: string | 


查看 数据 结果 如 下 : 
+ + 
classNo studentName score 
+ + 
DTSX0001 Jack 100 
DTSX0001 Smith 95 
DTSX0001 Ta 95 
DTSX0001 Curry 90 
DTSX0002 John 92 
DTSX0002 Peter 92 
DTSX0002 Alex 85 
DTSX0002 Lowery 76 
DTSX0002 James 65 
+ + 


2. 使 用 窗口 函数 查询 班级 内 每 位 同学 的 考试 排名 情况 

在 本 节 考 试 分 数 查 询 统 计 中 ， 我 们 将 使 用 Spark SQL 的 窗口 函数 row_number( ) 统 计 班 级 
内 每 位 同学 考试 成 绩 的 名 次 ;分别 使 用 窗口 函数 rank( ) 、dense_rank 统计 学 生 的 考试 名 次 ; 
使 用 窗口 函数 percent_rank( ) 进行 百分比 排名 ; 使 用 窗口 函数 ntile 函数 将 分 组 数据 按照 顺序 
切 分 成 n 片 ; 使 用 窗口 函数 cume_dist 函数 计算 小 于 等 于 当前 值 的 行 数 占 分 组 内 总 行 数 的 比 
例 ; 使 用 窗口 函数 lag 函数 用 于 统计 窗口 内 往 上 第 n 行 的 值 ;使 用 窗口 函数 lead 函数 统计 窗 
口内 往 下 第 na 行 的 值 。 

(1 ) def row_number( ) :Column 

该 函数 会 从 1 开始 按照 由 小 到 大 的 顺序 生成 分 组 内 记录 的 序列 。 比 如 ,我 们 按照 成 绩 降 
序 排列 ， 生 成 每 个 班级 内 每 位 同学 成 绩 的 名 次 ， 代 人 码 如 下 : 
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SELECT 
classNo, studentName ,score， 

row_number( )OVER( PARTITION BYclassNo ORDER BY score DESC)AS m 
FROM math_score 


执行 结果 如 下 : 
十 十 
classNo studentName score Im 
十 十 十 
DTSX0001 Jack 100 1 
DTSX0001 Smith 95 也 
DTSX0001 Lady 95 3 
DTSX0001 Curry 90 4 
DTSX0002 John 9 1 
DTSX0002 Peter 92 易 
DTSX0002 Alex 85 3 
DTSX0002 Lowery 76 4 
DTSX0002 James 65 5 
+ + 


ROW_NUMBER( ) 的 应 用 场景 非常 多 ,通常 可 以 用 于 Top N 排名 的 统计 ， 例 如 网 易 云 音 
乐 按照 不 同 的 音乐 类 别 统计 出 榜 单 的 TOP 10。 在 这 里 需要 找 出 每 个 班级 中 成 绩 排名 前 三 名 
的 学 生 ， 代 码 如 下 : 


SELECT tmp. *( 

SELECT classNo, studentName , score, 

row_number( ) OVER(PARTITION BYclassNo ORDER BY score DESC)AS rm 
FROM math_score)tmp WHERE tmp <4 


(2) def rank( ) :Column 和 def dense_rank( ) :Column 

row_number 虽然 能 进行 排名 ,但 是 在 排序 中 出 现 相同 值 (例如 并 列 第 一 名 ) 的 情况 下 
仍 依次 排序 ， 我 们 可 能 会 分 别 采用 rank 和 dense_rank 进行 排名 ， 而 这 会 对 整个 排名 会 产生 
一 定 的 影响 。rank 函数 在 遇 到 排名 相等 的 情况 下 会 在 名 次 中 留 下 空位 ; 而 dense_rank 在 排名 
相等 时 在 名 次 中 不 会 留 下 空位 。 

我 们 分 别 用 3 个 窗口 函数 row_number( ) 、rank( ) 、dense_rank( ) 函数 对 考试 分 数 进行 排 
名 统计 。 

row_number( ) 、rank( ) 、dense_rank() 窗口 函数 分 别 查询 统计 如 下 : 


SELECT 
classNo, studentName , score, 


row_number( ) OVER(PARTITION BYclassNo ORDER BY score DESC) AS ml, 
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rank( )OVER( PARTITION BYclassNo ORDER BY score DESC) AS rn2 ， 
dense_rank( )OVER( PARTITION BYclassNo ORDER BY score DESC) AS rn3 
FROM math_score 


执行 结果 如 下 : © 
+ + + 
classNo studentName score rnl rn2 rn3 
+ + + 
DTSX0001 Jack 100 1 1 1 
DTSX0001 Smith 95 2 2 
DTSX0001 Lady 95 3 2 2 
DTSX0001 Curry 90 4 4 3 
DTSX0002 Peter 92 1 1 1 
DTSX0002 John 92 凡 1 1 
DTSX0002 Alex 85 3 3 多 
DTSX0002 Lowery 76 4 4 3 
DTSX0002 James 65 S 5 4 
+ | 十 十 


e ml 列 是 row_number 函数 作用 的 结 
e rn2 列 是 rank 函数 作用 的 结果 ;班级 号 为 DTSX0001 的 班级 中 ，Smith 和 Lady 同 为 95 
分 ， 并 列 排 名 第 2， 由 于 前 两 名 有 3 人 ,会 在 第 3 名 留 下 空位 ， 所 以 Curry 排名 第 4， 
后 续 的 排名 按照 这 个 规则 进行 排名 。 
e rn3 列 是 dense_rank 函数 作用 的 结果 ; 班级 号 为 DTSX0002 的 班级 中 ，Peter 和 John 同 
为 92 分， 并 列 第 一 ， 而 后 续 的 排名 不 会 留 下 空位 ， 即 使 有 多 人 并 列 排名 ，Alex 在 有 
两 个 并 列 第 一 的 情况 下 仍然 排名 第 2。 
(3 ) def percent_rank( ) : Column 
percent_rank 图 数 是 在 分 组 内 中 计算 : 当前 记录 的 rank 值 - 1 分 组 内 总 行 数 -1。rank_ 
列 计算 使 用 窗口 函数 rank( ) 计算 班级 中 每 位 同学 的 排名 ; count_ 列 计算 每 个 班级 的 同学 总 人 
数 ; percent_rank( ) 列 计算 当前 记录 的 rank 值 -1 分 组 内 总 行 数 -1 的 百分比 排名 。 


SELECT 
classNo, studentName ,score， 
rank( )OVER( PARTITION BYclassNo ORDER BY score DESC)AS rank_， 
count(1)OVER(PARTITION BYclassNo) AS count_ ， 
percent_rank( )OVER( PARTITION BYclassNo ORDER BY score DESC)AS m 
FROM math_score 


执行 结果 如 下 : 


大 


十 十 十 十 
classNo | studentName score | rank_ | count_ Im 

十 十 十 十 
DTSX0001 Jack 100 1 4 0.0 
DTSX0001 Smith 95 之 4 0. 3333333333333333 
DTSX0001 Lady DS 2 4 0. 3333333333333333 
DTSX0001 Curry 90 4 4 1.0 
DTSX0002 John 多 1 5 0.0 
DTSX0002 Peter 罗 史 1 5 0.0 
DTSX0002 Alex 85 3 S 0.5 
DTSX0002 Lowery 76 4 9 0.75 
DTSX0002 James 05 习 5 1.0 

十 十 十 十 


例如 ，DTSX0002 中 的 Alex 的 percent_rank 水 数 下 值 为 (3 -1)/(5 -1) =0.5， 说明 Alex 
考试 分 数 的 排名 情况 ， 即 班级 DTSX002 有 50% (一 半 ) 学 生 排名 在 Alex 之 前 。 

(4) def ntile(n:Int) :Column 

ntile 函数 用 于 将 分 组 数据 按照 顺序 切 分 成 n 片 ， 返回 当前 所 在 的 切片 值 ， 如 果 切 片 不 均 
匀 ， 则 默认 增加 第 一 个 切片 的 分 布 。 窗 口 函 数 ntile(2) 将 分 组 内 所 有 数据 分 成 2 片 ， 以 及 按 
classNo 分 区 ， 返 回 当前 所 在 的 切片 值 作为 rnl 列 ; 窗口 函数 ntile(3) 将 分 组 内 所 有 数据 分 成 
3 片 ， 以 及 按 classNo 分 区 ， 返 回 当 前 所 在 的 切片 值 作 为 m2 列 ; 窗口 函数 ntile(3) 将 分 组 内 
所 有 数据 分 成 3 片 ， 返 回 当 前 所 在 的 切片 值 作为 m3 列 ; 


SELECT 

classNo ,studentName , score, 

ntile(2)OVER( PARTITION BY classNo ORDER BY score DESC ) AS rnl ， 
ntile(3)OVER( PARTITION BY classNo ORDER BY score DESC) AS rn2 ， 
ntile(3)OVER( ORDER BY score DESC) AS rn3 

FROM math_score 


执行 结果 如 下 : 

十 十 十 

classNo studentName score | ml | rn2 | m3 
十 十 十 

DTSXO001 Jack 100 1 1 1 

DTSX0001 Smith 95 1 1 1 

DTSX0001 Lady 95 2 之 1 

DTSX0002 John 9% 1 1 2 

DTSX0002 Peter 92 1 1 多 
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| DTSX0001 | Curry | 90| 2| 3| 2 
| DTSX0002 | Alex | 85| 1 2 
| DTSX0002 | Lowery | 28| 2| 2| 3 
| DTSX0002 | James | 65| 2 al 9 © 
+ 二 + + 二 二 
e ml 是 根据 班级 号 分 组 的 ， 然 后 按照 成 绩 由 高 到 低 排 序 后 切片 成 2 份 。 
e rn2 是 根据 班级 号 分 组 的 ， 然 后 按照 成 绩 由 高 到 低 排 序 后 切片 成 3 份 。 


e rn3 把 所 有 记录 作为 一 个 组 ， 然 后 按照 成 绩 由 高 到 低 排序 后 切片 成 3 份 。 

以 列 ml 为 例 ， 即 以 班级 号 为 DTSX0001 这 一 组 为 例 ， 该 组 一 共 4 条 记录 被 切 分 成 2 份 ， 
这 样 每 个 分 片 有 两 条 记录 ， 所 以 在 该 组 中 ，jJack 和 Smith 的 成 绩 位 于 第 一 个 分 片 ， 值 为 1， 
Lady 和 Curry 的 成 绩 位 于 第 二 个 分 片 ， 所 以 值 为 2， 这 是 均匀 切片 的 情况 。 

我 们 来 看 不 均匀 切片 的 情况 ， 在 班级 号 为 DTSX0002 这 一 组 中 总 计 5 条 记录 被 切片 成 2 
份 , 5 除 以 2 余 1， 这 一 条 记录 加 入 在 第 一 个 分 片 中 ， 就 变 了 第 1 个 分 片 有 3 条 记录 , 第 2 
个 分 片 有 2 条 记录 ， 所 以 John 、Peter、Alex 的 成 绩 位 于 第 1 个 分 片 中 ,分 片 值 为 1，Lowery 
和 James 位 于 第 2 个 分 片 中 ， 所 以 分 片 值 为 2。 

5. def cume dist( ) :Column 

cume_dist 函数 用 于 计算 小 于 等 于 当前 值 的 行 数 占 分 组 内 总 行 数 的 比例 ， 这 在 实际 业务 
场景 中 非常 常见 ， 比 如 ， 统 计 小 于 等 于 当前 薪水 的 人 数 所 占 总 人 数 的 比例 。 使 用 窗口 函数 
cume_dist( ) 统计 考试 分 数 在 Lowery 同学 分 数 之 前 的 人 数 在 总 人 数 的 占 比 ， 作 为 ml 列 ; 使 
用 窗口 函数 cume_dist( ) 及 使 用 PARTITION BY 按 班级 分 组 ， 统 计 考 试 分 数 在 Lowery 同学 分 
数 之 前 的 人 数 在 班级 分 组 人 数 的 占 比 ， 作 为 m2 列 。 


SELECT 

classNo, studentName , score, 

cume_dist( )OVER( ORDER BY score DESC) AS rnl, 

cume_dist( )OVER( PARTITION BY classNo ORDER BY score DESC ) AS rn2 
FROM math_score 


执行 结果 如 下 : 

十 十 十 

classNo studentName score Inl rn2 
十 十 十 

DTSX0001 Jack 100 | 0.1111111111111111 0.25 

DTSX0001 Smith 95 | 0. 3333333333333333 0. 73 

DTSX0001 Lady 95 | 0. 3333333333333333 0.75 

DTSX0001 Curry 90 | 0.6666666666666666 1.0 

DTSX0002 Peter 92 | 0.5555555555555556 | 0.4 

DTSX0002 John 92 | 0.5555555555555556 0.4 
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| DTSX0002 | Alex | 85 | 0.7777777777777778 | 0.6 | 

| DTSX0002 | Lowery | 76 | 0.8888888888888888 | 0.8 

| DTSX0002 | James | 65 | 10| 1.0| 
+ + + + 十 


e 列 ml 是 把 当前 所 有 记录 作为 一 组 的 ， 按 成 绩 由 高 到 低 来 计算 cume_dist 的 值 。 
e 列 mn2 是 根据 班级 号 分 组 的 ， 按 成 绩 由 高 到 低 来 计算 cume_dist 的 值 ， 例 如 班级 号 为 
DTSX0002 这 一 组 中 分 数 按 降序 排列 ， 对 于 Lowery 而 言 ， 排 在 76 分 前 之 前 的 记录 数 
有 4 条 ，DTSX0002 的 总 记录 条 数 为 5 条 ， 所 以 该 行 的 cume_dist 值 为 4/5 = 0.8。 
(6) def lag(e:Column ,offset:Int, defaultValue: Any) :Column 
lag 函数 用 于 统计 窗口 内 往 上 第 na 行 值 ;第 一 个 参数 为 列 名 ， 第 二 个 参数 为 往 上 第 mn 行 
(可 选 ， 默 认为 1) ， 第 三 个 参数 为 默认 值 ( 当 往 上 第 na 行为 NULL 时 候 ， 取 默认 值 ， 如 不 指 
定 ， 则 为 NULL) 。 使 用 窗口 函数 row_number( ) 计算 班级 中 每 位 同学 考试 分 数 的 排名 ， 作 为 
rownum 列 ; 使 用 窗口 函数 lag( score, 1) 获取 班级 中 分 数 在 此 同学 分 数 之 前 1 位 的 同学 的 分 
数 ， 作 为 ml; 使 用 窗口 函数 lag( score,2) 获 取 班 级 中 分 数 在 此 同学 分 数 之 前 2 位 的 同学 的 
分 数 ， 作 为 m2。 


SELECT 

classNo ,studentName ,score 
row_number( )OVER(PARTITION BYclassNo ORDER BY score DESC) AS rownum ， 
lag( score ,1,0)OVER(PARTITION BYclassNo ORDER BY score DESC) AS ml, 
lag( score ,2)OVER( PARTITION BYclassNo ORDER BY score DESC) AS rn2 

FROM math_score 


执行 结果 如 下 : 
classNo | studentName score rownum Inl rn2 
a 

DTSX0001 Jack 100 1 0 null 
DTSX0001 Smith 35 之 100 null 
DTSX0001 Lady 95 3 95 100 
DTSX0001 Curry 90 4 95 9 
DTSX0002 Peter 9 1 0 null 
DTSX0002 John 2 2 2 null 
DTSX0002 Alex 85 3 92 92 
DTSX0002 Lowery 76 4 85 92 
DTSX0002 James 65 3 76 85 


。 列 ml 是 根据 班级 进行 分 组 的 ， 按 成 绩 由 高 到 低 来 计算 lag 函数 的 值 ， 例 如 在 班级 号 
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为 DTSX0001 这 个 组 中 对 于 成 绩 最 高 的 Jack 来 说 ， 往 上 1 行 不 存在 ， 所 以 此 时 的 值 为 
我 们 设置 的 默认 值 为 0， 对 于 Smith 来 说 往 上 1 行为 Jack 的 记录 ， 所 以 lag 的 值 
为 100。 
。 列 m2 是 往 上 查找 两 条 记录 ， 比 如 在 班级 号 为 DTSX0002 的 这 一 组 中 ， 对 于 John 来 
说 ， 往 上 两 行 不 存在 ， 且 没有 设置 默认 值 ， 此 时 为 NULL， 对 于 James 来 说 ， 往 上 查 
找 两 行为 Alex 的 记录 ， 所 以 lag 值 为 85。 
(7) def lead(e:Column ,offset:Int, defaultValue: Any) :Column 
lead 与 lag 相反 ,该 函数 用 于 统计 窗口 内 往 下 第 n 行 值 ， 第 一 个 参数 为 列 名 ， 第 二 个 参 
数 为 往 下 第 n 行 (可 选 ， 默 认为 1) ， 第 三 个 参数 为 默认 值 ( 当 往 下 第 nn 行为 NULL 时 候 ， 
取 默 认 值 ， 如 果 不 指定 ， 则 为 NULL) 。 使 用 窗口 函数 row_number( ) 计算 班级 中 每 位 同学 考 
试 分 数 的 排名 ， 作 为 rownum 列 ; 使 用 窗口 函数 lead(score,1) 获取 班级 中 分 数 在 当前 的 同学 
分 数 之 后 1 位 的 同学 的 分 数 ， 作 为 ml; 使 用 窗口 函数 lead( score,2 ) 获取 班级 中 分 数 在 当前 
的 同学 分 数 之 后 2 位 的 同学 的 分 数 ， 作 为 m2。 


SELECT 

classNo ,studentName , score, 
row_number( ) OVER(PARTITION BYclassNo ORDER BY score DESC) AS rownum, 
lead( score ,1,0)OVER(PARTITION BYclassNo ORDER BY score DESC) AS rnl, 
lead( score ,2)OVER(PARTITION BYclassNo ORDER BY score DESC) AS rn2 

FROM math_score 


执行 结果 如 下 : 
十 十 十 十 十 
classNo studentName score rownum rmnl rn2 
十 十 十 十 十 
DTSX0001 Jack 100 1 95 95 
DTSX0001 Smith 95 凡 95 90 
DTSX0001 Lady 95 3 90 null 
DTSX0001 Curry 90 4 0 null 
DTSX0002 Peter 92 1 92 85 
DTSX0002 John 92 多 85 76 
DTSX0002 Alex 85 3 76 65 
DTSX0002 Lowery 76 4 65 null 
DTSX0002 James 65 5 0 null 
十 十 十 十 十 
列 ml 是 根据 班级 进行 分 组 ， 获 取 班 级 中 分 数 在 当前 的 同学 分 数 之 后 1 位 的 同学 的 分 


数 ， 例 如 在 班级 号 为 DTSX0001 这 个 组 中 对 于 成 绩 最 高 的 Jack 来 说 ， 往 下 1 行为 Smith 的 记 
录 ， 所 以 lead 的 值 为 95; 对 于 Curry 来 说 往 下 1 行 不 存在 且 有 设置 默认 值 ， 此 时 为 0。 
列 mm2 是 往 下 查找 2 条 记录 ， 比 如 在 班级 号 为 DTSX0002 的 这 一 组 中 ， 对 于 Lowery 来 说 
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往 下 2 行 不 存在 且 没 有 设置 默认 值 ， 此 时 为 NULL， 对 于 Alex 来 说 往 下 查找 2 行为 James 的 
记录 ， 所 以 lead 值 为 65。 
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下 面 我 们 以 2014 ~2015 和 2015 ~ 2016 赛季 NBA 常规 赛 为 例 ， 对 窗口 函数 进行 数据 统 
计 的 应 用 实践 。 
1. NBA 常规 赛 数据 说 明 
NBA 常规 赛 数据 来 源 于 stat - nba(http ://www. stat -~ nba. com) ， 通 过 数据 查询 器 抓 取 了 
这 两 个 赛季 中 30 支 NBA 球 队 的 场 均 数据 ， 数 据 的 信息 如 表 5-3 
表 5-3 数据 的 信息 


序 号 SEQ 
球 队 名 称 TEAM 
赛季 SEASON 
投篮 命中 率 FG 
投篮 命中 数 FGM 
投篮 出 手 次 数 FGA 
三 分 球 命中 率 3P 
三 分 球 命中 数 3PM 
三 分 球 出 手 次 数 3PA 
罚球 命中 率 FT 
罚球 命中 次 数 FTM 
罚球 出 手 次 数 FTA 
篮板 REBS 
前 场 篮板 OREB 
后 场 篮板 DREB 
助攻 AST 
抢断 STL 
盖帽 BLK 
失误 TO 
犯规 FOVLS 
场 均 得 分 PTS 
场 均 失 分 PTLS 
胜 场 Ww 
负 场 L 


球 队 的 分 区 信息 如 表 5-4 所 示 。 
表 5-4 球 队 的 分 区 信息 


球 队 名 称 TEAM 


所 属 分 赛区 DIVISION 


所 属 联 盟 UNION 


并 请 和 Sbark SQL 内 置 函数 与 窗口 函数 


2. 在 Hive 中 加 载 NBA 常规 赛 数 据 ， 并 使 用 Spark SQL 查询 
1) 将 NBA 球 队 的 场 均 数据 信息 、NBA 球 队 分 区 信息 数据 文件 上 传 到 HDFS。 
2) 在 Hive 中 创建 外 部 表 : NBA 球 队 的 场 均 数据 表 (PLAYOFFS_1416) 、NBA 球 队 的 
分 区 信息 表 (TEAMINFO ) 。 > 
3) 使 用 Spark SQL 统计 NBA 常规 赛 各 类 查询 数据 。 
(1) 将 数据 文件 上 传 到 HDFS。 
篮球 参考 网 站 (www. basketball - reference. com) 提供 了 NBA 篮球 历届 比赛 球员 、 球 
队 、 季 节 赛 、 领 先 者 、 分 数 、 季 后 赛 、 篮 球 指数 的 详细 数据 。 我 们 可 以 从 网 站 上 (http:// 
www. basketball - reference. com/leagues/NBA_2017_totals. html) 下 载 NBA 篮球 运动 员 历 史 数 
据 。 将 数据 文件 上 传 到 HDFS 指定 的 目录 下 : 


hadoop dfs -put . /playOffs1416. csv /library/ SparkSQL/function/ nba/ playoffs1416 
hadoop dfs — put . /teamInfo. csv /library/ SparkSQL/function/ nba/teaminfo 


(2) 启动 Spark - Shell， 根 据 上 述 信息 分 别 创建 外 部 表 。 


scala > hiveContext. sql( " create external table PLAYOFFS_1416( SEQ INT,TEAM STRING ,SEASON 
STRING, FG DOUBLE, FGM DOUBLE, FGA DOUBLE,3P DOUBLE ,3PM DOUBLE ,3PA 
DOUBLE ,FT DOUBLE ,FTM DOUBLE ,FTA DOUBLE ,REBS DOUBLE, OREB DOUBLE ,DREB 
DOUBLE ,AST DOUBLE, STL DOUBLE, BLK DOUBLE,TO DOUBLE, FOVLS DOUBLE ,PTS 
DOUBIE ,PTLS DOUBLE, W INT,L INT) ROW FORMAT DELIMITED FIELDS TERMINATED 
BY ', LINES TERMINATED BY \W STORED AS TEXTFILE LOCATION 
' /library/ SparkSQL/function/ nba/ playoffs1416 " ) 


scala > hiveContext. sql ( " create external table TEAMINFO (TEAM STRING, DIVISION STRING, 
UNION 


STRINC) ROW FORMAT DELIMITED FIELDS TERMINATED BY ', LINES TERMINATED BY 
"Ma STORED AS TEXTFILE LOCATION /library/ SparkSQL/function/nba/teamin{f6 " ) 


在 Spark - Shell 中 ， 查 询 Hive 数据 库 NBA 球 队 的 场 均 数据 表 (PLAYOFFS_1416)、 
NBA 球 队 的 分 区 信息 表 (TEAMINFO) 中 的 数据 记录 数 : 


scala > hiveContext. sql( "select count( * )from PLAYOFFS_1416" ). show 


_c0 | 


60 | 


scala > hiveContext. sql( "select count( * )from TEAMINFO" ). show 
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(3) 使 用 Spark SQL 统计 NBA 常规 赛 各 类 查询 数据 。 

1) 场 均 数 据 和 球 队 分 区 信息 关联 查询 。 

对 过 去 的 两 个 赛季 ， 每 支 球 队 都 具有 自己 的 场 均 指 标 ， 我们 可 以 根据 胜 负 场 计算 出 各 支 
球 队 的 胜率 ， 为 了 更 好 地 、 清 晰 地 进行 指标 分 析 ， 我 们 将 场 均 数据 和 球 队 的 分 区 信息 进行 关 
联 ， 保 存 为 一 个 dataFrame， 代 码 如 下 : 


scala > val dataFrame = hiveContext. sql(" SELECT tmp. * ,round( W/(W +L),4) *100 AS 
WR,info. DIVISION ,info. UNION FROM PLAYOFFS_1416 tmp JOIN TEAMINFO info ON 
tmp. TEAM = info. TEAM" ) ; 


给 这 个 DataFrame 注册 临时 表 ， 后 续 的 统计 我 们 要 运用 这 张 临 时 表 
scala > dataFrame. registerTempTable("PC_DATA" ) ; 


查询 dataFrame 的 记录 数 . 


scala > dataFrame. count( ) 


16/04/24 18:58:10 INFO scheduler DAGScheduler: Job 10 finished :count at < console > :32 ,took 
4. 206738 s 
resll :Long =60 


dataFrame 的 记录 数 是 60， 即 将 NBA 球 队 的 场 均 数 据 表 (PLAYOFFS_1416) 、NBA 球 队 
的 分 区 信息 表 (TEAMINFO) 根据 球 队 名 称 关 联 以 后 ， 共 查询 的 记录 数 为 60 。dataFrame 每 
一 行 的 记录 包括 球 队 名 称 、 赛 季 、 投 篮 命 中 率 、 投 篮 命中 数 、 投 篮 出 手 次 数 、 三 分 球 命中 
率 、 三 分 球 命中 数 、 三 分 球 出 手 次 数 、 罚 球 命中 率 、 罚 球 命中 次 数 、 罚 球 出 手 次 数 、 篮 板 、 
前 场 篮 板 、 后 场 篮 板 、 助 攻 、 抢 断 、 盖 帽 、 失 误 、 犯 规 、 场 均 得 分 、 场 均 失 分 、 胜 场 、 负 
场 、 胜 率 WR ( 即 胜 场 / ( 胜 场 + 负 场 ) ， 结 果 四 售 五 人 后 保留 4 位 小 数 ) 、 所 属 分 赛区 、 所 
属 联盟 等 信息 。 

我 们 查询 近 两 个 赛季 金 州 勇 士 队 的 情况 ， 从 DataFrame 注册 的 临时 表 PG_DATA 中 查询 
金 州 勇士 队 在 NBA 14 ~ 15 赛季 、NBA 15 ~ 16 赛季 比赛 记录 的 相关 内 容 ， 包 括 : 球 队 名 称 、 
赛季 ， 胜 率 。 


hiveContext. sql(" SELECT TEAM,SEASON, WR FROM PC_DATA WHERE TEAM = Golden State 


Warriors' " ). show 


TEAM | SEASON WR | 
再 下 

Golden StateWarr .. | 14 -15 81.71000000000001 | O) 
Golden StateWarr... | 15 - 16 89. 02 | 
十 十 


2) 根据 胜 负 场 次 统计 两 个 赛季 能 够 进入 季 后 赛 的 球 队 : 按照 赛季 、 所 属 联盟 分 组 ， 对 
胜 场 场次 、 投 得 命中 率 进 行 降 序 排列 ， 使 用 窗口 函数 row_number( ) 查询 出 球 队 的 排名 情况 。 


scala > val playoffsRankDF = hiveContext. sql(" SELECT TEAM ,SEASON, UNION,W,L,WR,FG, 
row_number( ) OVER( PARTITION BY SEASON ,UNION ORDER BY W DESC,FG DESC) as rm 
FROM PG_DATA" ) ; 


playoffsRankDF 查询 结果 每 行 记录 的 内 容 包 括 : 球 队 名 称 、 赛 季 、 所 属 联盟 、 胜 场 、 负 
场 、 胜 率 、 投 复命 中 率 、 使 用 row_number( ) 函数 查询 球 队 排 名 rn 等 信息 。 
将 playoffsRankDF 注册 为 临时 表 PLAYOFFSRANK: 


scala > playoffsRankDF. register TempTable( " PLAYOFFSRANK" ) ; 


查询 NBA 15 -16 赛季 东西 部 联盟 进入 季 后 赛 的 球 队 信息 的 具体 步骤 如 下 : 

QD 查询 playoffsRankDF 注册 的 临时 表 PLAYOFFSRANK; 

@ 根据 球 队 前 8 强 排名 mm 、 赛 季 SEASON 、 所 属 联 盟 UNION 等 条 件 进 行 查 询 。 

@ 查询 NBA 15 ~ 16 赛季 西部 联盟 前 8 强 的 球 队 信息 ， 包 括 球 队 名 称 TEAM 、 胜 场 W、 
负 场 工 、 球 队 排名 mm。 

由 查询 NBA 15 ~ 16 赛季 东部 联盟 前 8 强 的 球 队 信息 ， 包 括 球 队 名 称 TEAM、 胜 场 W、 
负 场 L、 球 队 排 名 m。 

在 上 面 的 结果 中 分 别 查 找 2015 ~ 2016 赛季 东西 部 进入 季 后 赛 的 球 队 信息 。 

NBA15 ~ 16 赛季 西部 前 8 强 查询 结果 如 下 : 


scala > hiveContext sql(" SELECT TEAM,W,L,r FROM PLAYOFFSRANK WHERE mm <9 AND 
SEASON = 15 -16 AND UNION = WEST "). show 


时 
TEAM W 虎 In 

让 
Golden StateWarr. . . 73 9 1 
San Antonio Spurs 67| 15 2 
Oklahoma CityThu. . . 3 汉 | 2 3 
Los Angeles Clippers 53| 29| 4 
Portland Trail Bl... 44| 38 3 


ark S 


Dallas Mavericks | 
Memphis Grizzlies | 


Houston Rockets | 
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42| 40| 6| 
42| 40| 7| 
41| 41 


下 


NBA15 ~ 16 赛季 东部 联盟 前 8 强 查询 结果 如 下 : 


scala > hiveContext. sql( "SELECT TEAM ,W,L,m FROM PLAYOFFSRANK WHERE m <9 AND 


SEASON = 15 -16' AND UNION = EAST "). show 


TEAM 


Cleveland Cavaliers 
Toronto Raptors 
Miami Heat 
Atlanta Hawks 
Boston Celtics 
Charlotte Hornets 
Indiana Pacers 


Detroit Pistons 


十 十 
WwW L rn 
+ + 
Sn 25 1 
56 26 2 
48 34 3 
48 34 4 
48 34 9 
48 34 6 
45 3 7 
44 38 8 
+ + 


3) 针对 最 近 两 个 赛季 常规 赛 排名 ， 我 们 可 以 根据 排名 的 变化 ， 找 出 东 、 西 部 进步 幅度 
最 大 的 球 队 。 首 先 查 找 出 每 支 球 队 的 排名 涨幅 。 

具体 步骤 如 下 : 

Q@ 子 查询 TI1: NBA 15 ~ 16 赛季 中 PLAYOFFSRANK 临时 表 中 的 记录 ， 内 容 包括 : 球 队 


名 称 、 赛 季 、 所 


队 排 名 m。 


属 联 盟 、 胜 场 、 负 场 、 胜 率 、 投 篮 命 


中 率 、 使 用 row_number( ) 函数 查询 球 


@) 子 查询 T2: NBA 14 ~15 赛季 中 PLAYOFFSRANK 临时 表 中 的 记录 ， 内 容 包括 : 球 队 


名 称 、 赛 季 、 所 


队 排 名 mn。 


属 联盟 、 胜 场 、 负 场 、 胜 率 、 投 篮 命 


中 率 、 使 用 row_number( ) 函数 查询 球 


@) 将 子 查询 TI 和 子 查 询 T2 根据 球 队 名 称 进行 关联 。 


@) 从 关联 表 中 查询 NBA 球 队 排名 涨幅 差异 记录 结果 ， 内 容 包 括 : NBA 14 ~ 15 赛季 球 
队 名 称 、NBA 14 ~ 15 赛季 球 队 所 
赛季 排名 CURRENT_RANK、NBA 15 ~ 16 赛季 排名 和 NBA 14 ~ 15 赛季 排名 相 减 即 排名 涨幅 
差异 DIFF 等 信息 。 

@) 将 查询 结果 注册 临时 表 RANKDIFFDF。 

@) 使 用 rank 函数 对 排名 涨幅 差异 DIFF 字段 再 次 进行 涨幅 幅度 排名 ， 分 别 查询 出 东部 
联盟 、 西 部 联盟 排名 涨幅 第 一 的 球 队 。 


属 联盟 、NBA 14 ~ 15 赛季 排名 LAST_RANK 、NBA 15 ~ 16 


并 让 天 和 Spark SQL 内 置 函 数 与 窗口 函数 


NBA 球 队 排名 涨幅 差异 记录 查询 : 


scala > val rankDiffDF = hiveContext sql(" SELECT T2. TEAM ,T2. UNION ,T2.r AS LAST_RANK, 
Tl.r AS CURRENT_RANK,(T2. rm -TI]. rn)AS DIFF FROM(SELECT * FROM 
PLAYOFFSRANK WHERE SEASON = 15 -16 )T1 JOIN(SELECT * FROM PLAYOFFSRANK © 
WHERE SEASON = 14 -13' )T2 ON T1. TEAM = T2. TEAM" ); 


将 rankDifDF 注册 临时 表 RANKDIFFDF : 
scala > rankDiffDF. registerTempTable( " RANKDIFFDF" ) ; 


使 用 rank 函数 对 排名 涨幅 差异 DIFF 字段 再 次 进行 涨幅 幅度 排名 : 

Q) 从 临时 表 RANKDIFFDF 进行 子 查 询 ， 根 据 球 队 所 属 联盟 分 组 ， 按 照排 名 涨幅 差异 
DIFF 字段 进行 降序 排列 ， 使 用 rank( ) 窗口 函数 对 排名 涨幅 情况 进行 排名 ， 查 询 记录 内 容 包 
括 : NBA 14 ~15 赛季 球 队 名 称 、NBA 14 ~ 15 赛季 球 队 所 属 联盟 、NBA 14 ~ 15 赛季 排名 
LAST_RANK、NBA 15 ~ 16 赛季 排名 CURRENT_RANK、NBA 15 ~ 16 赛季 排名 - NBA 14 ~ 15 
赛季 排名 〈 即 排名 涨幅 差异 DIFF) 排名 涨幅 的 排名 mr。 

@) 查询 出 东部 联盟 、 西 部 联盟 排名 涨幅 第 一 (tm =1) 的 球 队 ， 内 容 包 括 : 球 队 所 
联盟 、 球 队 名 称 。 


al 


scala > hiveContext. sql( "SELECT t. UNION,t TEAM FROM( SELECT tmp. * ,rank( )OVER 
(PARTITION BY UNION ORDER BY DIFF DESC) AS m FROM RANKDIFFDF tmp)t 
WHERE t. rm =1"). show 


四 
UNION | TEAM | 
刘 
WEST| Oklahoma CityThu... | 
EAST | Miami Heat | 


a 


从 统计 的 结果 可 以 看 出 ， 较 上 个 赛季 而 言 ， 本 赛季 东 、 西 部 进步 最 快 的 球 队 是 西部 的 雷 
霆 队 和 东部 的 热火 队 。 

4) 分 析 统 计 出 本 赛季 命中 率 、 三 分 球 命中 率 、 防 守 能 力 最 强 的 三 支 球 队 。 

具体 步 又 如 下 : 

Q@ 根据 投篮 命中 率 FG 进行 降序 排序 ， 使 用 窗口 函数 rank( ) 对 投 复命 中 率 进行 排名 ， 
作为 FG_RANK 字段 。 

@ 根据 三 分 球 命中 率 3P 进行 降序 排序 ， 使 用 窗口 函数 rank( ) 对 三 分 球 命中 率 进行 排 
名 ， 作 为 3P_RANK 字段 。 

@) 根据 场 均 失 分 PTLS 进行 升序 排序 ， 使 用 窗口 函数 rank( ) 对 场 均 失 分 最 少 进行 排名 ， 
作为 PTLS_RANK 字段 。 
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@ 从 NBA 球 队 的 场 均 数据 表 (PLAYOFFS_1416) 中 查询 NBA 15 ~ 16 赛季 的 记录 ， 内 
容 包 括 : 球 队 名 称 、 投 篮 命中 率 排名 、 三 分 球 命中 率 排名 、 场 均 失 分 排名 。 

@) 查询 投篮 命中 率 最 高 的 球 队 ， 即 投篮 命中 率 排 名 第 一 的 球 队 (FG_RANK =1)。 

@ 查询 三 分 球 命中 率 最 高 的 球 队 ， 即 三 分 球 命中 率 排名 第 一 的 球 队 (3P_RANK =1) 。 

Q@ 查询 防守 能 力 最 强 的 球 队 ， 即 场 均 失 分 最 少 排名 第 一 的 球 队 (PTLS_RANK =1)。 


scala > val dataRankDF = hiveContext. sql(" SELECT TEAM ,rank( )OVER( ORDER BY FG DESC)AS 
FG_RANK ,rank( )OVER( ORDER BY 3P DESC)AS 3P_RANK ,rank( )OVER( ORDER BY 
PTLS ASC) AS PTLS_RANK FROM PLAYOFFS 1416 WHERE SEASON = 15-16 ") 

16/04/24 23 :49 :36 INFO parse. ParseDriver: Parsing command :SELECT TEAM ,rank( ) OVER 
(ORDER BY FG DESC)AS FG_RANK ,rank( )OVER( ORDER BY 3P DESC) AS 3P_RANK， 
rank( )OVER( ORDER BY PTLS ASC)AS PTLS_RANK FROM PLAYOFFS 1416 WHERE 
SEASON = 15 -16' 


将 dataRankDF 注册 临时 表 DATARANK。 
scala > dataRankDF. registerTempTable( " DATARANK" ) ; 


查询 投篮 命中 率 最 高 的 球 队 : 


scala > hiveContext. sql(" SELECT x FROM DATARANK WHERE FG_RANK =1" ). show 


十 
TEAM | FG_RANK 3P_RANK | PTLS RANK | 
十 
19 | 


汪 


Golden StateWarr. . . 1 1 


查询 三 分 球 命中 率 最 高 的 球 队 : 


scala > hiveContext. sql( "SELECT * FROM DATARANK WHERE 3P_RANK =1" ). show 


十 
TEAM | FG_RANK 3P_RANK | PITLS RANK | 
十 
19 | 


中 


Golden StateWarr. . . 1 1 


查询 防守 能 力 最 强 的 球 队 : 


scala > hiveContext. sql(" SELECT * FROM DATARANK WHERE PTLS_RANK =1"). show 


“第 5 音 GY 


十 十 十 十 十 
| nn TEAM| FG RANK| 3P_RANK| PTLS_RANK | 
十 十 十 十 + 
| San Antonio Spurs | 2| 2| 1 | 
十 十 十 十 十 


从 这 3 个 指标 来 看 本 赛季 联盟 投篮 命中 率 、 三 分 球 命中 率 排名 第 一 的 均 为 勇士 队 ， 但 防 
守 能 力 处 于 中 下 水 平 ， 而 防守 能 力 排名 第 一 的 马刺 队 ， 在 投篮 命中 率 方 面 均 为 联盟 第 二 ， 可 
见 马 刺 队 在 攻防 能 力 上 均 有 较 高 的 水 准 。 


医 逐 叉 本 章 小 结 


通过 本 章 的 学 习 ， 读 者 可 以 掌握 Spark SQL 中 内 置 函数 和 窗口 函数 使 用 的 基本 流程 ， 并 
学 会 通过 这 些 函 数 对 业务 数据 进行 分 析 ; 同时 也 可 以 掌握 以 Hive 作为 数据 仓库 、Spark SQL 
作为 计算 引擎 的 数据 统计 分 析 方 法 。 通 过 本 章 的 案例 ， 窗 口 函 数 的 使 用 非常 重要 ， 可 以 通过 
它 解决 诸如 Top N 排序 等 较为 复杂 的 查询 ， 给 开发 者 提供 了 极 大 的 便利 。 由 于 本 章 篇 幅 有 
限 ， 其 他 的 内 置 函 数 可 以 参照 Spark 官方 文档 进行 学 习 使 用 。 
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61 UDF 概述 


用 户 自 定义 函数 (User Define Function，UDF)， 用 户 可 以 将 自己 编写 的 自 定义 函数 
(UDF) 加 入 到 用 户 会 话 中 (交互 式 查 询 或 者 通过 脚本 执行 )，UDF 将 和 内 置 的 函数 一 样 
使 用 。 

Spark SQL 中 org. apache. spark. sql. functions. scala 提供 了 大 量 的 内 置 函数 ， 包 括 聚 合 限 
数 、 日 期 时 间 函 数 、 排 序 函 数 、 非 聚合 函数 、 数 学 函数 、 窗 口 函 数 、 字 符 串 函数 、 集 合 函 数 
等 ， 例 如 : 使 用 count、max、min、avg 等 内 置 函数 计算 计数 、 最 大 值 、 最 小 值 、 平 均值 等 
各 种 查询 统计 。 但 Spark SQL 支持 的 SQL 仍然 有 限 ， 有 时 候 Spark SQL 提供 的 函数 功能 不 能 
满足 业务 需要 ， 就 需要 用 户 进行 自 定义 函数 (UDF) 开发 。Spark SQL 的 UDF 类 型 包括 普通 
UDF、 用 户 自 定义 聚集 函数 UDAF 等 。 其 中 UDF 操作 单行 数据 记录 ， 产 生 单行 数据 输出 ; 
UDAF 接受 多 条 数据 记录 输入 ， 产 生 单行 数据 输出 。 


ea UDF 示例 


编写 UDF 分 为 三 步 : 

第 一 步 : 编写 UDF 函数 。 根 据 业务 需求 ， 编 写 自 定义 化 的 UDF 函数 。 

第 二 步 : 注册 UDF 函数 。 通 过 SQLContext 注册 UDF， 在 Scala 2. 10.x 版 本 中 ，UDF 函 
数 最 多 可 以 接受 22 个 输入 参数 。 

第 三 步 : 写 SQL 语句 。 直 接 在 SQL 语句 中 使 用 UDF， 就 像 使 用 SQL 自动 的 内 部 函数 
一 样 。 

本 章 用 户 自 定义 函数 (UDF) 示例 包括 : Hobby_count 函数 ， 将 字符 串 以 “,” 切 分 ， 
计算 切 分 后 数组 的 长 度 ; Combine 函数 ， 合 并 sl ，s2 两 个 字符 串 ， 如 果 sl 为 空 ， 返 回 s2 ， 
否则 返回 sl + s2; str2Int 函数 ， 将 字符 串 转 为 整数 ;，Wsternstate 函数 ， 判 断 给 定 的 字符 串 是 
否 包 含 在 " CA"" OR" " WA" " AK" 中 ; manyCustomers 函数 ， 判 断 给 定 的 数 是 否 大 于 2; 
stateRegion 图 数 ， 模 式 匹配 state 进行 处 理 ; discountRatio 函数 ， 求 折扣 和 原价 的 比值 ; make- 
Struct 图 数 ， 将 sales，discounts 组 合成 SalesDiscount 结构 ; myDateFilter 图 数 ， 过 滤 出 8 月 份 
的 记录 ; makeDT 函数 ， 将 3 个 字符 串 合 并 连接 。 各 示例 的 数据 来 源 来 自 程 序 生 成 的 模拟 
数据 。 
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Hobby count 函数 


函数 名 称 . hobby_count。 > 
函数 功能 : 将 字符 串 以 “,” 切 分 ， 然 后 求 切 分 后 形成 的 数组 的 长 度 。 
函数 示例 : 


1) 定义 NameHobbies 的 case class 类 ， 构建 NameHobbies 类 型 的 Seq 集合 变量 data， 通 
过 sc 的 parallelize 方法 读 入 data 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame ， 然 后 注册 成 临时 
表 NameHobbiesTable。 

2) 在 sqlContext. udf 中 注册 hobby_count 的 自 定义 函数 ， 将 字符 串 以 “,” 切 分 , 求 切 
分 后 形成 的 数组 的 长 度 。 

3) 在 临时 表 NameHobbiesTable 中 执行 查询 操作 ， 打 印 出 结果 。 


import org. apache. spark. | SparkConf,SparkContext | 
import org. apache. spark. sql. SQLContext 


// 继 承 App , 免 写 main 方法 

objectMyUDF extends App | 
// 设 置 Spark 运行 时 的 配置 参数 ,setAppName(" MyUDF" ) 表示 将 应 用 程序 的 名 字 设 为 MyUDF， 

setMaster( "local[ * ]" ) /Spark 在 本 地 多 线程 运行 (指定 所 有 可 用 内 核 ) 

val conf = newSparkConf( ). setAppName("MyUDF" ). setMaster( "local[l * ]") 


// 建 立 Spark 上 下 文 ,这 是 通 向 Spark 集群 的 唯一 入 口 
val sc = newSparkContext( conf) 


// 建 立 基 于 Spark 上 下 文 的 SQL 上 下 文 


val sqlContext = new SQLContext( sc) 


// 如 果 不 导 入 ,后 面 toDF( ) 时 会 报错 


import sqlContext. implicits. _ 


case class NameHobbies( name: String, hobbies: String ) 


val data = Seq( NameHobbies( "sasuke" ," jog,code,cook" ) ， 


WD a 


Name Hobbies( "naruto" ,"travel ,dance" ) ) 


// 加 载 数据 ,将 其 注册 为 表 , 表 名 为 :NameHobbiesTable 
sc. parallelize( data). toDF( ). registerTempTable("NameHobbiesTable" ) 


// 注 册 名 为 hobby_count 的 自 定义 函数 ,这 个 自 定义 函数 的 功能 是 ;将 字符 串 以 ”,” 切 分 ,然后 
求 切 分 后 形成 的 数组 的 长 度 


sqlContext. udf. register( " hobby_count" ,(s:String) =>s. split( , ). size) 
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// 执 行 查 询 操 作 , 将 hobby_count( hobbies ) 的 结果 列 重 命名 为 hobby_count, 在 Driver 上 打印 
结果 
sqlContext. sql( "select * ,hobby_count( hobbies ) as hobby_count from NameHobbiesTable" ). show( ) 


// 执 行 清理 操作 ,清除 中 间 数 据 , 停 止 Spark 上 下 文 
sc. stop( ) 
| 


在 本 地 和 运行， 结果 如 下 所 示 。 
十 1 
name | hobbies | hobby_count | 
十 十 十 十 
sasuke | jog,code,cook | 3 | 
Naruto | travel , dance | 2 | 
+ + + + 


Combine 函数 


函数 名 称 : combine。 

函数 功能 .如果 sl 为 空 ， 返 回 s2 ， 和 否则 返回 sl +s2 。 

函数 示例 : 

1) 定义 NullTable 的 case class 类 ， 构 建 NullTable 类 型 的 Sed 集合 变量 data， 通 过 sc 的 
parallelize 方法 读 入 data 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame， 注 册 成 临时 表 NullTable。 

2) 在 sqlContext. udf 中 注册 combine 的 自 定义 函数 ， 如 果 sl 为 空 ， 返 回 s2， 否 则 返回 
sl] +s2。 


3) 在 临时 表 NullTable 中 执行 查询 操作 ， 打 印 出 结 


import org. apache. spark. | SparkConf ,SparkContext| 

import org. apache. spark. sql. SQLContext 

objectMyUDF extends App | 
val conf = newSparkConf( ). setAppName(" MyUDF" ). setMaster( "locall * ]") 
val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc) 


import sqlContext. implicits. _ 


case classNullTable( strl :String ,str2 :String ) 
val data = Seq( NullTable( null,"123" ) ,NullTable("123" ,"456" ) ) 
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// 加 载 数据 ,将 其 注册 为 表 , 表 名 为 :NullTable 
sc. parallelize( data). toDF( ). registerTempTable( " NullTable" ) 


// 注 册 名 为 combine 的 自 定义 函数 ,这 个 自 定义 函数 的 功能 是 :如 果 sl 为 空 ,返回 s2, 否 则 返回 O) 
sl+s2 


sqlContext. udf register( "combine" , (sl :String,s2 :String) => |if(sl ==null)s2 else sl +s2|) 


// 执 行 查 询 操 作 , 将 combine( strl ,str2) 的 结果 列 重 命名 为 AB ,在 Driver 上 打印 结 
sqlContext. sql( " select combine( strl ,st2 ) as AB from NullTable" ). show( ) 


sc. stop( ) 


Emy 
计 
千 
区 


了 ， 结 果 如 下 所 示 。 


123 | 


Str2Int 函数 习 


函数 名 称 : su2Int。 

函数 功能 : 将 字符 串 转 为 整数 。 

函数 示例 : 

1) 定义 Simple 的 case class 类 ， 构 建 Simple 类 型 的 Seq 集合 变量 data， 通 过 sc 的 paral- 
lelize 方法 读 入 data 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame， 注 册 成 临时 表 Simple。 

2) 在 sqlContext udf 中 注册 str2Int 的 自 定义 函数 ， 将 字符 串 转 为 整数 。 

3) 在 临时 表 Simple 中 执行 查询 操作 ， 将 str2Int( str) 的 结果 列 重 命名 为 st2Int， 查 询 打 
印 结 

4) 在 临时 表 Simple 中 执行 查询 操作 ，cast 为 SparkSQL 的 内 置 函数 ， 查 询 打 印 结 


import org. apache. spark. | SparkConf ,SparkContext| 
import org. apache. spark. sql. SQLContext 


objectMyUDF extends App | 
val conf = newSparkConf( ). setAppName(" MyUDF" ). setMaster( "locall * ]") 
val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc ) 
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import sqlContext. implicits. _ 
case class Simple( str:String) 


val data = Seq( Simple( "12" ) ,Simple( "34" ) ,Simple( "56" ) ,Simple( "78" )) 


// 加 载 数据 ,将 其 注册 为 表 , 表 名 为 :Simple 
sc. parallelize( data). toDF( ). registerTempTable( " Simple" ) 


// 注 册 名 为 sh2Int 的 自 定义 函数 ,这 个 自 定义 函数 的 功能 是 :将 字符 申 转 为 整数 


sqlContext. udf. register( "str2Int" , (s:String) => s. toInt) 


// 执 行 查 询 操作 ,将 su2Int(str) 的 结果 列 重 命名 为 st2Int, 在 Driver 上 打印 结 
sqlContext. sql( " SELECT str2Int( str) AS str2Int FROM Simple" ). show( ) 


// 执 行 查询 操作 ,在 Driver 上 打印 结果 ,其 中 cast 为 SparkSQL 的 内 置 函 数 
sqlContext. sql( "SELECT cast( str AS Int) FROM Simple" ). show( ) 


sc. stop( ) 


在 本 地 运行 ， 结 果 如 下 所 示 。 
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Wsternstate 函数 


函数 名 称 ， westernState ， 查 询 顾客 是 否 归 属于 美国 加 利 福 尼 亚 州 CA (Califormia) 、 俄 勒 > 
交州 OR (Oregon) 、 华 盛 顿 州 WA (Washington)、 阿 拉 斯 加 州 AK (Alaska)。 

函数 功能 : 查询 统计 顾客 商品 的 购买 记录 ， 顾 客 信息 包括 ID ， 姓 名 ， 销 售 额 ， 折 扣 人 金 
额 ， 所 在 州 ， 其 中 CA 是 美国 加 利 福 尼 亚 州 (California) 、AZ 是 亚利桑那 州 ( Arizona)、MA 
是 马 陕 诸 塞 州 (Massachusetts)。 本 示例 要 统计 查询 四 个 州 的 顾客 购买 记录 (美国 加 利 福 尼 
亚 州 CA (California) 、 俄 勒 交 州 OR (Oregon)、 华 盛 顿 州 WA (Washington ) 、 阿 拉 斯 加 州 
AK (Alaska) ) 。 通 过 自 定 义 函 数 westernState， 传 人 顾客 所 在 州 的 参数 ， 由 洱 数 westernState 
判断 是 否 包含 在 这 四 个 州 中 ， 即 给 定 的 字符 串 是 否 包含 在 "CA""OR" "WA" "AK" 中 。 

函数 示例 : 

1) 定义 Customer 的 case class 类 ,构建 Customer 类 型 的 Seq 集合 变量 custs ， 通 过 sc 的 
parallelize 方法 读 入 custs 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame， 注 册 成 临时 表 customer- 
Table。 

2) 在 sqlContext. udf 中 注册 westernState 的 自 定义 阴 数 ，westernState_ 是 偏 阴 数 ，western- 

State 困 数 中 传人 一 个 参数 ， 判 断 参 数 给 定 的 字符 串 是 否 包 含 在 "CA" "0OR"" WA""AK" 中 。 

3) 在 临时 表 customerTable 中 执行 查询 操作 ， 自 定义 函数 作为 过 滤 条 件 〈 传 人 的 state 

是 否 在 "CA" ,"O0R" ,"WA" ,"AK" 中) ， 查 询 打印 结果 。 


import org. apache. spark. | SparkConf,SparkContext | 
import org. apache. spark. sql. SQLContext 


object MyUDF extends App| 
val conf = newSparkConf( ). setAppName(" MyUDF" ). setMaster( "locall * ]") 
val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc) 


import sqlContext. implicits. _ 


case class Customer( id: Integer, name: String, sales: Double, discounts: Double , state : String ) 
val custs = Seq( Customer(1," Widget Co" ,120200. 00 ,0. 00," AZ" ) ， 
Customer(2," Acme Widgets" ,410600. 00,560. 00,"CA" ) ， 
Customer(3," Widgetry" ,410550. 00 ,230. 00," CA" ) ， 
Customer(4," Widgets R Us" ,410505. 00 ,0.0," CA" ) ， 
Customer(5," YeOldeWidgete" ,500. 00 ,0.0," MA" ) ) 


// 加 载 数据 ,将 其 注册 为 表 , 表 名 为 :customerTable 


sc. parallelize( custs ). toDF( ). registerTempTable( " customerTable" ) 


// 这 个 函数 的 功能 是 :确定 给 定 的 字符 串 是 否 包含 在 "CA" ,"OR" ," WA" ," AK" 中 
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def westernState( state: String) = Seq(" CA","OR","WA","AK"). contains( state) 


// 注 册 名 为 westernState 的 自 定义 函数 ,注意 westernState 与 _ 之 间 存 在 一 个 空格 ,这 在 Scala 的 
语法 中 被 称 作 偏 函 数 ( partially function) 


sqlContext. udf. register( " westernState" , westernState _) 


// 执 行 查询 操作 , 自 定义 函数 在 这 里 作为 过 滤 条 件 , 在 Driver 上 打印 结 
sqlContext. sql( "SELECT * FROM customerTable WHERE westernState( state) " ). show( ) 


sc. stop( ) 


| 


在 本 地 运行 ， 结 果 如 下 所 示 。 

查询 顾客 归属 于 美国 加 利 福 尼 亚 州 CA (Califomia) 、 俄 勒 交州 OR (Oregon) 、 华 盛 顿 州 
WA (Washington) 、 阿 拉 斯 加 州 AK (Alaska) 这 四 个 州 的 顾客 商品 购买 记录 ， 这 里 亚 利 桑 
那州 AZ (Arizona) 、 马 萨 诸 塞 州 MA (Massachusetts) 不 在 这 四 个 州 范围 里 面 ， 查 询 出 归属 
于 美国 加 利 福 尼 亚 州 CA 的 所 有 顾客 商品 购买 记录 。 


机 
id name sales | discounts state | 
十 十 十 十 十 十 
2 Acme Widgets 410600.0 | 560.0 CA | 
3 Widgetry | 410550.0 | 230.0 CA | 
4 Widgets R Us | 410505.0 | 0.0 CA | 
十 十 十 十 十 十 


2 ManyCustomers 函数 ) 


函数 名 称 : manyCustomers。 

函数 功能 : 判断 给 定 的 数 是 否 大 于 2。 

函数 示例 : 

1) 定义 manyCustomers 基数， 判断 给 定 的 数 是 否 大 于 2。 

2) 在 sqlContext. udf 中 注册 manyCustomers 的 自 定 义 困 数 ，manyCustomers_ 是 偏 函 数 ， 
manyCustomers 图 数 中 传人 一 个 参数 ， 判 断 给 定 的 数 是 否 大 于 2。 

3) 在 临时 表 customerTable 中 执行 查询 操作 ， 根 据 州 名 分 组 ， 查 询 所 属 哪个 州 、 顾 客 购 
买 次 数 ，HAVING 子 句 调用 自 定义 函数 manyCustomers 查询 顾客 购买 次 数 大 于 2 次 的 记录 ， 
统计 查询 打印 结 


def manyCustomers( cnt:Long) =cnt >2 
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// 注 册 名 为 manyCustomers 的 自 定义 函数 ,注意 manyCustomers 与 _ 之 间 存 在 一 个 空格 ,这 在 
Scala 的 语法 中 被 称 作 偏 函数 (Partially Function ) 


sqlContext. udf. register( " manyCustomers" ,manyCustomers _) 


© 


// 执 行 查询 操作 , 自 定义 函数 此 处 作用 于 分 组 后 的 数据 ,在 Driver 上 打印 出 结果 
sqlContext. sql( 


UL 
S 


| SELECT state,COUNT(id) AScustCount 
| FROMcustomerTable 

| GROUP BY state 

| HAVINGmanyCustomers( custCount ) 


nn IN 


. stripMargin). show( ) 


其 中 ，s"""""". stripMargin 语法 ， 在 写 复杂 的 SQL 语句 时 很 有 用 ， 可 以 写 出 层次 分 明 
的 SQL 语句 ， 在 本 地 运行 ， 结 果 如 下 所 示 。 


十 一 一 一 十 一 一 一 一 一 一 + 


| state | custCount | 


StateRegion 函数 ) 


函数 名 称 ; stateRegion。 

函数 功能 . 使 用 模式 匹配 实现 不 同 的 state 的 匹配 处 理 。 

函数 示例 : 

1) 定义 stateRegion 函数 ， 模 式 匹 配给 定 的 参数 属于 哪个 区 域 : 西部 、 东 北 、 西 南 。 

2) 在 sqlContext udf 中 注册 stateRegion 的 自 定义 函数 ，stateRegion_ 是 偏 函 数 ，stateRe- 
gion 函数 中 传人 一 个 参数 ， 判 断 给 定 的 参数 属于 哪个 地 区 。 

3) 在 临时 表 customerTable 中 执行 查询 操作 ， 根 据 州 所 属 区 域 分 组 ， 查 询 销 售 总 金额 、 
调用 stateRegion 函数 查询 州 所 属 区 域 ， 统 计 查 询 打 印 结 


// 这 个 自 定义 函数 使 用 模式 匹配 实现 
def stateRegion( state:String) = state match 
case "CA" | "AK" | "OR" | "WA" =>"West" 
case "ME" | "NH" | "MA" | "RI | "CT" | "VI" =>"NorthEast" 
case "AZ | "NM" | "CO | "UT" =>"SouthWest" 
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// 注 册 名 为 stateRegion 的 自 定 义 函 数 , 注 意 stateRegion 与 _ 之 间 存 在 一 个 空格 ,这 在 Scala 的 语 
法 中 被 称 作 偏 函 数 ( Partially Function) 


sqlContext. udf. register( " stateRegion" , stateRegion _) 


// 执 行 查询 操作 ,此 人 处 自 定义 函数 被 用 作 分 组 条 件 , 将 stateRegion( state ) 的 结果 列 重 命名 为 
Region ,在 Driver 上 打印 出 结果 
sqlContext. sql( 


UL 
S 


| SELECT SUM(sales) AS totalSales ,stateRegion( state) AS Region 
| FROM customerTable 
| GROUP BY stateRegion( state) 


LL 


. stripMargin). show( ) 


在 本 地 运行 ， 结 果 如 下 所 示 。 


十 + + 
totalSales | Region | 
十 十 
1231655.0 | West | 
500.0 | NorthEast | 
120200.0 | SouthWest | 


十 十 


DiscountRatio 函数 ) 


函数 名 称 : discountRatio。 

函数 功能 : 求 折扣 和 原价 的 比值 。 

函数 示例 : 

1) 定义 discountRatio 函数 ， 两 个 人 参 分 别 为 销售 额 、 折 扣 人 金额 ，discountRatio 函数 计算 
折扣 率 ， 即 折扣 金额 与 销售 额 的 折扣 百分比 。 

2) 在 sqlContext. udf 中 注册 discountRatio 的 自 定义 函数 ，discountRatio_ 是 偏 函 数 ，dis- 
countRatio 函数 中 传人 销售 额 、 折 扣 金 额 ， 计 算 折 扣 率 。 

3) 在 临时 表 customerTable 中 执行 查询 操作 ， 查 询 ID 序号 、 折 扣 率 (折扣 金额 /销售 
额 )， 统计 查 询 打 印 结 


def discountRatio( sales: Double, discounts: Double) = discounts / sales 


// 注 册 名 为 discountRatio 的 自 定义 函数 ,注意 discountRatio 与 _ 之 间 存 在 一 个 空格 ,这 在 Scala 
的 语法 中 被 称 作 偏 函 数 (partially function) 


sqlContext. udf. register( " discountRatio" , discountRatio _) 
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// 执 行 查询 操作 ,将 discountRatio( sales ,discounts ) 的 结果 列 重 命名 为 ratio ,在 Driver 上 打印 结果 
sqlContext. sql( 


UAL 
S 


| SELECT id, discountRatio( sales ,discounts ) AS ratio > 
| FROMcustomerTable 


LL 


. stripMargin). show( ) 


在 本 地 运行 ， 结 果 如 下 所 示 。 


十 十 十 
id ratio 
1 0.0 
2 | 0.001363857769118... 
3 |5. 602240896358543E -4 
4 0.0 
S 0.0 
十 十 十 


MakeStruct 函数 ) 


函数 名 称 : makeStruct。 

函数 功能 : 从 顾客 商品 购买 记录 表 CustomerTable 中 查询 销售 额 ， 折 扣 金 额 信 息 ， 将 销 
售 金额 及 折扣 金额 组 合 在 一 起 显示 ， 将 sales 和 discounts 组 合成 SalesDiscount 结构 。 

函数 示例 : 

1) 定义 SalesDiscount case class， 其 成 员 变 量 为 销售 金额 、 折 扣 人 金额 。 

2) 定义 makeStruct 孔 数 ， 传 入 销售 额 、 折 扣 金 额 ， 将 销售 额 、 折 扣 金 额 组 合成 一 个 
case class， 将 SalesDiscount case class 作为 函数 结果 返回 。 

3) 在 sqlContext udf 中 注册 makeStruct 的 自 定 义 函数 ，makeStruct_ 是 偏 函 数 ，makeStruct 
函数 中 传人 销售 额 、 折 扣 人 金额， 返回 case class 类 。 

3) 在 临时 表 customerTable 中 执行 查询 操作 ， 查 询 (销售 金额 、 折 扣 金 额 ， 结 构 体 ， 统 
计 查 询 打 印 结 果 。 

4) 在 临时 表 customerTable 中 执行 查询 ， 查 询 ID 序号 ，( 销售 金额 、 折 扣 人 金额， 结构 体 
sd， 子 查询 结果 为 d; 然后 再 从 子 查询 结果 d 中 查询 ID 序号 ，( 销售 金额 、 折 扣 人 金额 ) 结构 
体 sd， 统 计 查 询 打印 结 


case class SalesDiscount( sales :Double , discounts : Double ) 


def makeStruct( sales: Double ,discounts :Double) = SalesDiscount( sales ,discounts ) 
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// 注 册 名 为 makeStruct 的 自 定义 函数 ,注意 makeStruct 与 _ 之 间 存 在 一 个 空格 ,这 在 Scala 的 语 
法 中 被 称 作 偏 函 数 ( Partially Function) 


sqlContext. udf. register( " makeStruct" ,makeStruct _) 


// 执 行 查 询 操 作 , 将 makeStruct( sales, discounts) 的 结果 列 重 命名 为 sd ,在 Driver 上 打印 结果 
sqlContext. sql( "SELECT makeStruct( sales ,discounts ) AS sd FROM customerTable" ). show( ) 


// 骨 套 查 询 ,s"""""". stripMargin 使 用 “1” 作 为 连接 符 , 创 建 多 行 字 符 串 。 
sqlContext. sql( 


nn 
S 


| SELECT id,sd FROM 

| 

| SELECT id, makeStruct( sales ,discounts ) AS sd FROM customerTable 
| )ASd 


nn 


. stripMargin). show( ) 


在 本 地 运行 ， 结 果 如 下 所 示 。 


[ 120200. 0,0.0] 
[410600. 0 ,560. 0] 
[410550. 0 ,230. 0] 

[410505. 0,0.0] 

[500. 0,0.0] 


id sd 
十 十 十 
1| [120200.0,0.0] 
[410600. 0,560.0] 
[410550. 0 ,230.0] 
[410505. 0 ,0. 0] 
[500.0,0.0] 


MyDateFilter 函数 ) 


函数 名 称 : myDateFilter。 
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函数 功能 : 查询 学 生 的 报名 表 ， 如 果 学 生 是 8 月 份 报名 的 ， 则 过 滤 出 8 月 份 的 记录 ， 并 
查询 统计 8 月 份 报名 的 学 生 姓 名 、 报 名 时 间 。 

函数 示例 : 

1) 定义 Entry 的 case class 类 ， 其 成 员 变 量 为 名 称 、 日 期 ， 构建 Entry 类 型 的 Seq 集合 变 > 
量 data， 通 过 sc 的 parallelize 方法 读 入 data 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame， 注 册 
成 临时 表 entryTable。 

2) 定义 myDateFilter 函数 ， 传 人 日 期 字符 串 ， 如 日 期 字符 串 中 包含 " -08 -"， 则 返回 
true 值 。 

3) 在 sqlContext. udf 中 注册 myDateFilter 的 自 定义 函数 ，myDateFilter_ 是 偏 函 数 ，myDa- 
teFilter 函数 中 传人 日 期 ， 根 据 日 期 字符 串 过 滤 出 8 月 份 的 记录 。 

4) 在 临时 表 entryTable 中 执行 查询 操作 ， 查 询 日 期 在 8 月 份 的 记录 ， 打 印 出 结 


case class Entry(name:String,when:String ) 


val date = Seq( Entry( "one" ,"2014 -01 -01" ) ， 
Entry("two" ,"2014 -03 -01" ) ， 
Entry( "three" ,"2014 -08 -01" ) ， 
Entry( "four" ,"2014 -08 -15" ) ， 
Entry("five" ,"2014 -12 -15" ) ) 


/人 /加 载 数据 ,将 其 注册 为 表 , 表 名 为 :entryTable 
sc. parallelize( date). toDF( ). registerTempTable(" entryTable" ) 


def myDateFilter( date :String) = date. contains(" ~08—") 


// 注 册 名 为 myDateFilter 的 自 定义 函数 ,注意 myDateFilter 与 _ 之 间 存 在 一 个 空格 ,这 在 Scala 的 语 
法 中 被 称 作 偏 水 数 ( Partially Function ) 


sqlContext. udf. register( " myDateF'ilter" ,myDateFilter _) 


// 执 行 查 询 操作 , 自 定 义 函 数 myDateFilter 被 用 作 过 滤 条 件 , 在 Driver 上 打印 结果 
sqlContext. sql( " SELECT * FROM entryTable WHERE myDateFilter( when) " ). show( ) 


在 本 地 运行 ,结果 如 下 所 示 。 


再 


name | when 
十 

three | 2014 -08 -01 

four | 2014 -08 - 15 


下 
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MakeDT 函数 


函数 名 称 : makeDT。 

函数 功能 : 将 3 个 字符 串 连 接 起 来 ， 以 空格 隔 开 。 

函数 示例 : 

1) 定义 Purchase 的 case class 类 ， 其 成 员 变 量 为 顾客 ID 、 购 买 了 站、 日期、 时 间 、 时 区 、 
金额 ， 构 建 Purchase 类 型 的 Seq 集合 变量 pur。 

2) 导入 spark 的 sqlContext 隐 式 转换 类 import sqlContext. implicits. _， 用 于 将 一 个 RDD 
隐 式 转换 为 一 个 DataFrame。 

3) 通过 sc 的 parallelize 方法 读 入 pur 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame， 注 册 成 
临时 表 purchaseTable。 

4) 定义 makeDT 函数 ， 传 人 三 个 参数 : 日 期 、 时 间 、 时 区 ,将 日 期 、 时 间 、 时 区 三 个 
字符 串 连 接 起 来 ， 以 空格 分 隔 。 

5) 在 sqlContext. udf 中 注册 makeDt 的 自 定 义 函 数 ，makeDt_ 是 偏 函 数 ，makeDt 孔 数 中 
传人 和 人 日期、 时间、 时 区 ， 将 三 者 以 空格 连接 成 一 个 字符 串 。 

6) 在 临时 表 purchaseTable 中 执行 查询 操作 ， 查 询 金额 、 日 期 时 间 时 区 ， 打 印 出 结 

创建 case class Purchase。 


scala > case class Purchase( customer_id:Int,purchase_id:Int,date:String,time: 
String,tz:Strng,amount:Double ) 


defined class Purchase 
输入 数据 。 


scala > val pur = Seq( Purchase( 123 ,234,"2007 -12 -12" ,"20:50" ,"UTC'" ,500. 99 ) ， 
Purchase( 123 ,247 ,"2007 -12 -12" ,"15:30" ,"PST" ,300. 22) ， 
| Purchase( 189,254,"2007 - 12 -13" ,"00.:50" ,"EST'" ,122. 19 ) ， 
| Purchase( 187 ,299 ,"2007 -12 -12" ,"07:30" ," UTC'" ,524. 37)) 
pur: Seq[ Purchase] = List( Purchase( 123 ,234 ,2007 -12 -12,20:50,UTC ,500. 99 ) ， 
Purchase( 123 ,247 ,2007 -12 -12 ,15:30,PST,300. 22 ) ， 
Purchase( 189,254 ,2007 -12 -13 ,00:50, EST,122. 19) ， 
Purchase( 187 ,299 ,2007 -12 -12,07:30,UTC ,524. 37) ) 


导入 sqlContext implicits. _ 隐 式 函 数 。 如 果 不 导 入 implicits. _， 调 用 方法 toDF( ) 时 会 报错 。 


scala > import sqlContext. implicits. _ 


import sqlContext. implicits. _ 
加 载 数 据 ， 将 其 注册 为 表 ， 表 名 为 : purchaseTable。 


scala > sc. parallelize( pur). toDF( ). registerTempTable( " purchaseTable" ) 
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makeDT 函数 的 功能 是 : 将 3 个 字符 串 连 接 起 来 ， 以 空格 隔 开 。 


scala > def makeDT( date: String ,time :String ,tz:String) =s" $ date $ time $ tz" 


makeDT': ( date: String , time : String , tz: String ) String 


注册 名 为 makeDT 的 自 定义 函数 ， 注 意 makeDT 与 _ 之 间 存 在 一 个 空格 ， 这 在 Scala 的 语 
法 中 被 称 作 偏 函数 (Partially Function ) 。 


scala > sqlContext. udf register( " makeDt" ,makeDT _) 
resl :org. apache. spark. sql. UserDefinedFunction = 


UserDefinedFunction( <function3 > ,StringType, List( ) ) 


执行 查询 操作 ， 将 makeDT (date，time，t) 的 结果 列 重 命名 为 datetime， 在 Driver 上 
打印 结 


scala > sqlContext. sql( "SELECT amount ,makeDT(date,time,tz)AS datetime FROM 
purchaseTable" ). show( ) 


16/06/05 20:47:39 INFO scheduler. DAGScheduler: Job 2 finished :show at < console > :38, 
took 0. 704467 s 


amount datetime 


500. 99 | 2007 - 12 -12 20:50 UTC 
300.22 | 2007 -12 -12 15:30 PST 
122. 19 | 2007 -12 -13 00:50 EST 
524. 37 | 2007 -12 -12 07:30 UTC 


scala >val fmt = "yyyy ~ MM — dd hh:mm z" 
fmt: String =yyyy ~ MM -dd hh:mm z 


执行 查询 操作 ， 其 中 unix_timestamp 是 Spark SQL 的 内 置 函数 ， 在 Driver 上 打印 结果 。 


scala > sqlContext. sql(s" SELECT customer_id ,unix_timestamp( makeDt( date ,time ,tz) ， 
' $ fmt )AS UTime,amount FROM purchaseTable" ). show( ) 


+ 


customer_id UTime | amount 


时 
123 | 1197492600 | 500. 99 
123 | 1197502200 | 300. 22 
189 | 1197525000 | 122. 19 
187 | 1197444600 | 524. 37 


| + 
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UDAF 概述 


用 户 自 定 义 的 聚合 函数 (User Defined Aggregation Function ，UDAF ) ， 本 身 作用 于 数据 集 
合 ， 能 够 在 聚合 操作 的 基础 上 进行 自 定 义 操 作 。 实 际 上 ，UDF 会 被 Spark SQL 中 的 Catalyst 
封装 成 为 Expression， 最 终 会 通过 eval 方法 来 计算 输入 的 数据 Row ( 注 : 此 处 的 Row 和 Dat- 
aFrame 中 的 Row 没有 任何 关系 )。Spark 对 UDF 的 支持 较 早 。Spark 1.1 就 推出 来 了 ， 而 
UDAF 是 Spark 1. 5 左右 才 出 的 。 晚 了 好 几 个 版 本 ， 说 明 UDAF 有 其 复杂 性 ， 因 为 它 有 大 量 
的 Aggregation 之 类 的 操作 ， 是 对 批量 的 数据 集合 进行 操作 。 而 UDF 是 对 一 条 数据 进行 操作 ， 
即 你 会 有 具体 的 一 条 输入 的 数据 ， 具 体 如 何 进行 操作 ， 就 是 一 个 普通 的 Scala 函数 。 实 际 应 
用 中 也 是 如 此 ， 使 用 UDAF 时 往往 是 对 数据 进行 分 组 的 ， 然 后 操作 。 理 论 上 讲 ， 通 过 UDF 
和 UDAF 可 以 实现 任何 功能 。 
一 个 UDAF 维护 一 个 聚合 缓冲 区 来 存储 每 组 输入 数据 的 中 间 结 果 。 它 为 每 个 输入 行 更 新 
此 缓冲 区 ， 一 旦 处 理 完 所 有 输入 行 ， 基 于 该 聚合 缓冲 区 的 值 返 回 结果 。 一 个 UDAF 继承 了 基 
类 UserDefinedAggregateFunction 并 实现 以 下 8 个 方法 : 
e inputSchema : inputSchema 返回 StructType。 这 个 StructType 的 各 个 字段 代表 了 这 个 
UDAF 的 输入 参数 。 
e BufferSchema: BufferSchema 返回 StructType。 这 个 StructType 的 各 个 字段 代表 了 这 个 
UDAF 的 中 间 结 果 的 一 个 值 。 
e dataType: dataType 表示 此 UDAF 的 返回 值 的 数据 类 型 。 
e deterministic: deterministic 返回 一 个 布尔 值 ， 用 于 表明 在 给 定 输入 值 的 前 提 下 ， 此 
UDAF 是 否 总 是 生成 一 组 相同 的 结 
e initialize : initialize 用 于 初始 化 聚集 缓冲 区 (例如 MutableAggregationBuffer) 的 值 。 
e update: update 更 新 用 于 输入 行 的 聚集 缓冲 区 (例如 MutableAggregationBuffer) 。 
e merge: merge 用 于 合并 两 个 聚集 缓冲 区 ， 并 将 结果 存储 到 MutableAggregationBuffer。 
e evaluate: evaluate 用 于 生成 这 个 UDAF 的 最 终 值 。 这 个 值 基于 每 一 行 的 聚合 缓冲 区 的 值 。 
使 用 UDAF 有 两 种 方式 : 第 一 种 ， 一 个 UDAF 的 实例 可 以 立即 当 作 函 数 使 用 ; 第 二 种 ， 
用 户 可 以 向 Spark SQL 的 功能 注册 表 注 册 UDAF， 然 后 通过 分 配 的 名 称 调用 此 UDAF。 


ScalaAggregateFunction 函数 


也 数 名 称 : ScalaAggregateFunction。 
函数 功能 : 统计 单 笔 销 售 金额 超过 500 的 记录 销售 金额 累计 相 加 求 和 。 
函数 示例 : 
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1) 定义 ScalaAggregateFunction 类 继承 至 UserDefinedAggregateFunction : 


重 载 实现 方法 inputSchema: 返回 StructType 字段 (销售 金额 ， 浮 点 类 型 )， 作 为 Sca- 
aAggregateFunction 函数 的 输入 参数 ; 

重 载 实现 方法 BufferSchema: 返回 StructType 字段 (大 于 500 的 销售 额 求 和 值 ， 浮 点 
类 型 ) ， 作 为 ScalaAggregateFunction 函数 的 中 间 结 果 的 值 ; 

重 载 实现 方法 update: 如 果 读 和 每 行 input 的 第 0 个 元 素 的 值 〈( 即 销售 金额 ) 不 为 空 ， 
而 且 input 的 销售 金额 值 大 于 500， 则 更 新 输入 行 的 聚集 缓冲 区 (buffer) ，buffer 更 新 
第 0 个 元 素 值 ( 即 大 于 500 的 销售 额 求 和 sum 值 ) ， 其 累加 当前 大 于 500 的 销售 金 
额 值 ; 

重 载 实 现 方法 merge: merge 用 于 合并 两 个 聚集 缓冲 区 ， 将 第 一 个 缓冲 区 大 于 500 的 销 
售 金额 求 和 值 加 上 第 二 个 缓冲 区 大 于 500 的 销售 金额 求 和 值 ， 并 将 结果 存储 到 Mutab- 


ft 


leAggregationBuffer; 


。 重 载 实 现 方法 initialize: 初始 化 大 于 500 的 销售 额 求 和 值 为 0， 用 于 初始 化 聚集 缓冲 


区 (MutableAggregationBuffer) 的 值 ; 
重 载 实现 方法 deterministic: 设置 tue， 在 给 定 输入 值 的 前 提 下 ， 
tion 生成 一 组 相同 的 结 


ScalaAggregateF unc- 


重 载 实现 方法 evaluate : ScalaAggregateFunction 函数 的 最 终 计算 结果 为 buffer 的 第 0 个 


元 素 ( 即 大 于 500 的 销售 额 求 和 sum 值 ) 。 这 个 值 基于 每 一 行 的 聚合 缓冲 区 的 值 ; 
e 重 载 实 现 方法 dataType: dataType 表示 ScalaAggregateFunction 函数 返回 值 的 类 型 是 浮 


点 类 型 。 


2) 定义 顾客 Customer 的 case class 类 ， 其 成 员 变 量 分 别 为 D 、 姓 名 、 销 售 额 、 折 扣 销 


售 额 、 所 在 州 等 信息 。 
3) 构建 SparkContext 以 及 SQLContext， 导 入 spark 的 sqlContext 隐 
Context. implicits. _， 用 于 将 一 个 RDD 隐 式 转换 为 一 个 DataFrame。 


式 转换 类 import sql- 


4) 构建 Customer 类 型 的 Seq 集合 变量 custs ， 通 过 se 的 parallelize 方法 读 入 custs 数据 ， 
调用 toDF( ) 方 法 转换 成 DataFrame， 使 用 customerDF. printSchema( ) 打印 出 customerDF 的 


Schema 结构 ， 将 customerDF 注册 成 临时 表 customerTable。 


5) 创建 ScalaAggregateFunction 实例 mysum， 在 sqlContext. udf 中 注册 mysum 的 自 定义 


UDAF 函数 ， 将 大 于 500 的 销售 金额 汇总 累加 。 
6) 在 临时 表 customerTable 执行 查询 操作 ， 根 据 州 分 组 ， 查 询 所 
gregateFunction 函数 实例 mysum， 传 人 销售 金额 值 计算 大 于 500 的 销售 


属 州 、 调 用 ScalaAg- 
金额 求 和 的 累加 值 ， 


然后 使 用 sqlResult. printSchema( ) 打印 结果 的 Schema 结构 ， 使 用 sqlResult. show( ) 打印 查询 


结 


import org. apache. spark. | SparkContext ,SparkConf| 

import org. apache. spark. sql. | SQLContext ,Row| 

import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, 
UserDefinedAggregateFunction 

import org. apache. spark. sql. types. | DoubleType ,StructType ,DataType | 
objectmyUDAF | 


© 
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class ScalaAggregateFunction extends UserDefinedAggregateF unction | 
// 输 入 类 型 为 Double 类 型 
override def inputSchema: StructType = new StructType( ). add( "sales" ,DoubleType) 


// 中 间 结 果 类 型 为 Double 
override def bufferSchema: StructType = new StructType( ). add( "sumLargeSales" , DoubleType) 


override def update( buffer: MutableAggregationBuffer, input: Row) : Unit = | 
val sum = buffer. getDouble( 0) 
if( | input. isNullAt(0) ) | 
val sales = input. getDouble(0) 
// 超 过 500 才 更 新 相应 的 缓冲 区 
if(sales >500.0)| 


buffer. update( 0, sum + sales) 


/合并 缓冲 区 
override def merge (bufferl : MutableAggregationBuffer, buffer2: Row ) : Unit = bufferl. update (0， 
bufferl. getDouble(0 ) + buffer2. getDouble(0) ) 


// 初 始 化 缓冲 区 
override def initialize( buffer:MutableAggregationBuffer) :Unit = buffer update(0,0.0) 


// 在 给 定 输入 值 的 前 提 下 ,此 UDAF 总 是 生成 一 组 相同 的 结果 


override def deterministic : Boolean = true 


// 此 UDAF 的 最 终 值 为 buffer 中 position 为 0 的 值 
override def evaluate( buffer: Row) :Any = buffer. getDouble( 0) 


// 此 UDAF 的 返回 值 的 数据 类 型 是 DoubleType 
override def dataType: DataType = DoubleType 
| 


case class Customer( id: Integer, name: String, sales: Double, discounts :Double , state : String ) 


def main( args: Array| String | ) | 


val conf = newSparkConf( ). setAppName(" MyUDAF" ). setMaster( "local[l * ]") 
val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc) 
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import sqlContext. implicits. _ 


val custs = Seq( Customer(1," Widget Co" ,120200. 00 ,0. 00," AZ" ) ， 号 
Customer(2," Acme Widgets" ,410600. 00 ,560. 00," CA" ) ， 
Customer(3," Widgetry" ,410550. 00 ,230. 00," CA" ) ， 
Customer(4," Widgets R Us" ,410505. 00 ,0.0,"CA"), 
Customer(5," YeOldeWidgete" ,500. 00,0.0,"MA" ) ) 


// 加 载 数据 ,使 其 成 为 DataFrame 


val customerDF = sc. parallelize( custs). toDF( ) 


// 打 印 出 DataFrame 的 schema 


customerDF. printSchema( ) 


// 注 册 为 表 , 表 名 为 :customerTable 


customerDF. registerTempTable( " customerTable" ) 


// 实 例 化 UDAF 


val mysum = new ScalaAgegregateFunction( ) 


// 向 Spark SQL 的 功能 注册 表 注 册 名 为 mysum 的 UDAF 


sqlContext. udf. register( " mysum" , mysum) 


//mysum 作用 于 按 state 分 组 后 的 数据 
val sqlResult = sqlContext. sql( 
sn 
| SELECT state ,mysum( sales) AS bigsales 
| FROM customerTable 
| GROUP BY state 
""". stripMargin ) 
sqlResult. printSchema( ) 
println( ) 
// 在 Driver 上 打印 出 SQL 语句 的 执行 结果 
sqlResult. show( ) 
| 
| 


在 本 地 运行 ， 结 果 如 下 所 示 。 


root 


| =—id.:integer( nullable = true) 
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| —— name:string( nullable = true) 
| —— sales: double( nullable = false) 
| —— discounts :double(nullable = false) 


| —— state: string( nullable = true) 


root 


—— state: string( nullable = true) 
—— bigsales: double( nullable = true) 
+ 
state | bigsales | 
+ + + 
AZ | 120200.0 | 
CA | 1231655.0 | 
MA | 0.0 | 
| 十 


GeometricMean 函数 ) 


函数 名 称 : GeometricMean 。 

函数 功能 : 用 于 求 几 何平 均值 。 

函数 示例 : 本 例子 中 同时 展示 了 使 用 UDAF 的 两 种 方法 。 

1) 定义 GeometricMean 类 继承 至 UserDefinedAggregateFunction : 

e 重 载 实现 方法 inputSchema: 返回 StructType 字段 (数值 ， 浮 点 类 型 ) ， 作 为 Geometric- 
Mean 函数 的 输入 参数 ; 

e 重 载 实现 方法 BufferSchema: 返回 StructType 字段 ( (计数 ， 长 整 型 ) ，( 乘 积 ， 浮 点 
型 ) ) ， 作 为 CeometricMean 函数 的 中 间 结 果 的 值 ; 

e 重 载 实 现 方法 dataType: dataType 表示 GeometricMean 图 数 返回 值 的 类 型 是 浮 点 类 型 ; 

e 重 载 实现 方法 deterministic: 设置 true， 在 给 定 输入 值 的 前 提 下 ，GeometricMean 生成 

一 组 相同 的 结 

重 载 实现 方法 initialize: 初始 化 buffer 的 第 0 个 元 素 即 计数 值 为 0， 初 始 化 buffer 的 第 

1 个 元 素 即 乘积 值 为 0.0， 用 于 初始 化 聚集 缓冲 区 (MutableAggregationBuffer) 的 值 ; 

重 载 实现 方法 update: buffer 更 新 第 0 个 元 素 值 即 计 数值 ， 当 前 的 数值 计数 为 1 次 ， 

计数 值 就 累加 1; buffer 更 新 第 1 个 元 素 值 即 乘积 值 ， 将 buffer 第 1 个 元 素 的 原 乘积 

乘 以 读 入 的 每 行 元 素 第 0 个 元 素 即 数值 ， 将 原 乘 积 乘 以 新 的 数值 作为 更 新 的 乘积 值 ; 

重 载 实 现 方法 merge: merge 用 于 合并 两 个 聚集 缓冲 区 ， 将 第 一 个 缓冲 区 的 第 0 个 元 素 

即 计数 值 加 上 第 二 个 缓冲 区 的 第 0 个 元 素 即 计数 值 ， 作 为 合并 以 后 的 缓冲 区 的 第 0 个 

元 素 即 计数 值 ; 将 第 一 个 缓冲 区 的 第 1 个 元 素 即 乘积 值 乘 以 第 二 个 缓冲 区 的 第 1 个 元 
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素 即 乘积 值 ， 作 为 合并 以 后 的 缓冲 区 的 第 1 个 元 素 乘 积 值 ; 

e 重 载 实现 方法 evaluate : GeometricMean 函数 的 最 终 计算 结果 为 : 将 buffer 的 第 1 个 元 
素 〈 即 总 乘积 值 ) 作为 底数 ，buffer 的 第 0 个 元 素 〈 即 总 计数 值 的 倒数 ) 做 次 需 ， 两 
者 作 需 计算 即 计算 出 结果 : Waixax3 xn ; 

2) 构建 SparkContext 以 及 SQLContext， 导 入 spark 的 org. apache. spark. sql. functions. _， 
将 使 用 spark sql 强大 的 内 置 范 数 功 能 。 

3) 使 用 sqlContext. range 创建 一 个 DataFrame, 其 包括 1 列 ， 列 名 为 id， 列 中 元 素 类 
型 为 LongType， 列 的 数值 范围 从 11 到 50 (不 包括 50 ) ， 数值 步 长 值 为 1。 创建 数值 集 变 
量 df。 

4) 创建 GeometricMean 实例 Val gm = new Geometric Mean。 

5) 用 UDAF 计算 几何 平均 值 方 法 一 GeometricMean UDAF 的 实例 作 函 数 使 用 。df 的 
DataFrame 根据 id 列 分 组 ， 使 用 agg 函数 调用 GeometricMean UDAF 峭 数 gm， 在 Geometric- 
Mean 函数 gm 中 传人 id 列 数值 ， 计算 11 至 49 的 几何 平均 值 ， 然 后 通过 show 方法 展示 结果 。 

6) 用 UDAF 计算 几何 平均 值 方法 二 : GeometricMean UDAF 在 Spark SQL 注册 使 用 。 在 
sqlContext. udf 中 注册 gm 的 自 定义 UDAF 函数 ， 然 后 df 的 DataFrame 根据 id 列 分 组 ， 使 用 
agg 函数 调用 表达 式 ， 使 用 已 在 Spark SQL 注册 的 GeometricMean UDAF 水 数 gm， 在 Geomet- 
ricMean 函数 gm 中 传人 id 列 数值 ， 计 算 11 至 49 的 几何 平均 值 ， 然 后 show 方法 展示 结果 。 


import org. apache. spark. | SparkContext ,SparkConf| 

import org. apache. spark. sql. | SQLContext ,Row! 

import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, 
UserDefined AggregateFunction | 


import org. apache. spark. sql. types. _ 


objectmyUDAF | 
classGeometric Mean extends UserDefinedAggregateFunction | 
// 输 入 数据 类 型 为 Double 
def inputSchema: org. apache. spark. sql. types. StructType = StructType( StructField( " value" ,Dou- 
bleType) : :Nil) 


// 中 间 结 果 类 型 一 个 是 Long ,一 个 是 Double 
defbufferSchema: StructType = StructType ( StructField ( " count" ,LongType) : : StructField ( " prod- 
uct" ,DoubleType) : : Nil) 


// 返 回 结果 的 类 型 为 Double 
def dataType: DataType = DoubleType 


// 在 给 定 输入 值 的 前 提 下 ,此 UDAF 总 是 生成 一 组 相同 的 结果 


def deterministic : Boolean = true 


def initialize( buffer: MutableAggregationBuffer) :Unit = | 
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buffer(0) =0L 
buffer(1) =1.0 


def update( buffer: MutableAggregationBuffer, input: Row) :Unit = | 
buffer(0) = buffer. getAs[ Long] (0) +1 
buffer( 1 ) = buffer. getAs[ Double | (1) * input. getAs| Double ] (0) 


def merge( bufferl :MutableAggregationBuffer ,buffer2 :Row) : Unit = | 
bufferl (0) = bufferl. getAs| Long | (0) + buffer2. getAs| Long ] (0) 
bufferl (1) = bufferl. getAs| Double | (1) * buffer2. getAs[ Double | (1) 


def evaluate( buffer: Row) :Any = | 
math. pow( buffer. getDouble( 1) ,1. toDouble/ buffer. getLong(0) ) 
| 


def main( args: Array| String | ) | 
val conf = newSparkConf( ). setAppName(" MyUDAF" ). setMaster( "local[l * ]") 
val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc ) 
import org. apache. spark. sql. functions. _ 


val df = sqlContext. range(11 ,50 ) 


val gm = new CeometricMean 
// 一 个 UDAF 的 实例 可 以 立即 当 作 函数 使 用 
df groupBy( ). agg( gm( col("id" ) ). as("GeometricMean" ) ). show( ) 


// 向 Spark SQL 的 功能 注册 表 注 册 名 为 gm 的 UDAF 


sqlContext. udf register(" gm" ,gm ) 


// 然 后 ,通过 分 配 的 名 称 调用 此 UDAF 
df. groupBy( ). agg( expr("gm(id)as GeometricMean" ) ). show( ) 


| 
在 本 地 运行 ， 结 果 如 下 所 示 。 


| Geometric Mean | 
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十 十 
| 27. 64711319471532 | 
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| Geometric Mean | 


| 27. 64711319471532 | 


十 十 


CustomMean 函数 ) 


函数 名 称 : CustomMean。 

函数 功能 : 

用 于 计算 算术 平均 数 : 等 同 于 使 用 Spark SQL 本 身 的 内 置 函 数 avg 函数 求 算 术 平 均值 的 
功能 。 

函数 示例 : 

1) 定义 CustomMean 类 继承 至 UserDefinedAggregateFunction : 

e 重 载 实现 方法 inputSchema: 返回 StructType 字段 (item， 浮 点 类 型 ) ， 作 为 Custom- 

Mean 函数 的 输入 参数 ; 
e 重 载 实现 方法 BufferSchema: 返回 StructType 字段 (( 求 和 值 sam， 浮 点 类 型 ) ，( 计数 
次 数 ， 长 整 型 ) ) ， 作 为 CustomMean 函数 的 中 间 结 果 的 值 ; 

e 重 载 实 现 方法 dataType: dataType 表示 CustomMean 函数 返回 值 的 类 型 是 浮 点 类 型 ; 

e 重 载 实现 方法 deterministic: 设置 tue， 在 给 定 输入 值 的 前 提 下 ，CustomMean 生成 一 
组 相同 的 结果 ; 
重 载 实现 方法 initialize: 初始 化 buffer 的 第 0 个 元 素 即 求 和 值 sum 为 0， 初始化 buffer 
的 第 1 个 元 素 即 计数 次 数值 为 0L， 用 于 初始 化 聚集 缓冲 区 ( MutableAggregationBuffer) 
的 值 ; 
重 载 实现 方法 update: buffer 更 新 第 0 个 元 素 值 即 求 和 值 sam， 读 和 input 每 行 的 第 0 
个 元 素 item 的 数值 ， 将 原 求 和 值 sum 和 item 数值 相 加 作为 新 的 求 和 值 sam; buffer 更 
新 第 1 个 元 素 值 即 计数 次 数 累 加 值 ， 每 读 入 input 的 一 行 元 素 ， 计 数 次 数 为 1， 将 
buffer 第 1 个 元 素 的 原 计数 次 数 累 加 值 加 上 1 作为 新 的 计数 次 数 累 加 值 ; 
重 载 实现 方法 merge: merge 用 于 合并 两 个 聚集 缓冲 区 ,将 第 一 个 缓冲 区 的 第 0 个 元 素 
即 求 和 值 sum 加 上 第 二 个 缓冲 区 的 第 0 个 元 素 即 求 和 值 sam， 作 为 合并 以 后 的 缓冲 区 
的 第 0 个 元 素 即 求 和 值 sum; 将 第 一 个 缓冲 区 的 第 1 个 元 素 即 计数 次 数 累 加 值 加 上 第 
二 个 缓冲 区 的 第 1 个 元 素 即 计数 次 数 累 加 值 ， 作 为 合并 以 后 的 缓冲 区 的 第 1 个 元 素 计 
数 次 数 累 加 值 ; 
e 重 载 实现 方法 evaluate: CustomMean 函数 的 最 终 计 算 结 果 为 : 将 buffer 的 第 0 个 
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元 素 即 总 求 和 值 sum 除 以 buffer 的 第 1 个 元 素 即 总 计数 值 ， 计 算出 算术 平均 值 。 


al+a;+t+as+ +a, 
元 过 9 
n 


2) 构建 SparkContext 以 及 SQLContext， 导 入 Spark 的 org. apache. spark. sql. functions. _， 
将 使 用 spark sql 强大 的 内 置 也 数 功能 。 

3) 构建 Row 类 型 的 Seq 集合 变量 data， 其 中 1 到 1000 范围 的 数值 ， 如 数值 小 于 500， 
则 返回 Row (A， 数 值 ) ; 如 数值 大 于 500， 则 返回 Row (B， 数 值 ); 通过 sc 的 parallelize 方 
法 读 入 data 数据 ， 生 成 rdd。 

4) 构建 StructType 类 型 变量 schema， 其 元 素 为 〈( (key， 字 符 串 类 型 ) ，(value， 浮 点 数 
类 型 ) ) 。 将 rdd 和 相应 的 schema 通过 sqlContext. createDataFrame 方法 构 建 DataFrame df。 

5) 创建 CustomMean 实例 customMean。 

6) 在 Spark SQL 语句 中 使 用 实例 化 后 的 CustomMean UDAF。df 的 DataFrame 根据 key 列 
分 组 ， 使 用 agg 函数 查询 ， 查 询 结果 是 2 列 : 

第 1 列 : 使 用 自 定义 的 CustomMean UDAF 计算 算术 平均 数 的 函数 customMean， 在 
customMean 中 传人 value 列 数值 ， 分 别 计算 Key 为 A 时 ，value 列 小 于 500 的 算术 平均 数 ; 
计算 Key 为 B 时 ，value 列 大 于 500 的 算术 平均 数 。 

@) 第 2 列 : 使 用 Spark SQL 内 置 的 平均 数 函 数 arg， 在 avg 中 传人 value 列 数值 ， 分 别 计 
算 Key 为 A 时 ，value 列 小 于 500 的 算术 平均 数 ; 计算 Key 为 B 时 ，value 列 大 于 500 的 算术 
平均 数 。 

自 定义 的 CustomMean UDAF 算术 平均 数 函 数 计算 结果 和 Spark SQL 内 置 的 平均 数 函 数 
avg 计算 结果 相同 o 


import org. apache. spark. | SparkContext ,SparkConf| 

import org. apache. spark. sql. | SQLContext ,Row! 

import org. apache. spark. sql. expressions. | MutableAggregationBuffer, UserDefined AggregateFunction 
import org. apache. spark. sql. types. _ 


objectmyUDAF | 


classCustomMean extends UserDefinedAggregateFunction 


// 输 入 数据 类 型 为 Double 
def inputSchema: StructType = StructType( Array( StructField( " item" ,DoubleType) ) ) 


// 数 据 的 和 为 sum, 是 Double 类 型 ,数据 的 个 数 为 cnt ,是 Long 类 型 
def bufferSchema = StructType( Array( StructField( " sum" ,DoubleType) , StructField( " cnt" , Long- 
Type) ) ) 


[AUDAF 的 返回 值 为 Double 类 型 
def dataType: DataType = DoubleType 


// 在 给 定 输入 值 的 前 提 下 ,此 UDAF 总 是 生成 一 组 相同 的 结 
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def deterministic = true 


//sum 的 初 值 为 0 ,cnt 的 初 值 为 0 
def initialize( buffer: MutableAggregationBuffer) = | > 
buffer(0) =0. toDouble 
buffer(1) =0L 
| 
// 每 输入 一 个 数 , 将 其 与 sum 相 加 ,同时 cnt 加 1 
def update( buffer: MutableAggregationBuffer, input: Row) = | 
buffer(0) = buffer. getDouble(0) +input. getDouble(0) 
buffer( 1 ) = buffer. getLong(1) +1 


def merge( bufferl . MutableAggregationBuffer, buffer2. Row) = | 
bufferl (0) = bufferl. getDouble(0) + buffer2. getDouble(0) 
bufferl (1) = bufferl. getLong( 1) + buffer2. getLong(1) 


// 最 终 的 结果 为 .sum/ ent 
def evaluate( buffer.: Row) = | buffer. getDouble(0)/buffer. getLong( 1). toDouble) 


def main( args: Ar ray[ String | ) | 
val conf = newSparkConf( ). setAppName(" MyUDAF" ). setMaster( "local[l * ]") 
val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc) 
import org. apache. spark. sql. functions. _ 


val data= (1 to 1000). map|x:Int=>x match| 
case t ift<=500 => Row("A" ,t. toDouble) 
case t=> Row("B" ,t toDouble) 
上 
val rdd = sc. parallelize( data) 
val schema = StructType( Array( StructField( " key" ,StringType) ,StructField("value" , DoubleType) ) ) 
val df = sqlContext. createDataFrame( rdd, schema) 


// 实 例 化 CustomMean ,在 SQL 语句 中 直接 使 用 实例 化 后 的 UDAF 


val custom Mean = new CustomMean( ) 


df. groupBy( " key" ). agg( custom Mean( df col( "value" )). as("custom mean" ) ,avg( "value") 
.as("avg" ) ). show( ) 
| 
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在 本 地 和 运行， 结果 如 下 所 示 。 


十 十 


key | custom_mean | avg | 


+ + + + 
A | 250.5 | 250.5 | 
B | 750.5 |750.5 | 

下 
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函数 名 称 : belowThreshold。 
函数 功能 : 用 于 检测 分 组 的 数据 中 是 否 存 在 位 于 给 定 阅 值 下 的 数 ， 如 果 是 ， 则 返回 
true; 和 否 ， 则 返回 false。 

函数 示例 : 

1) 定义 belowThreshold 类 继承 至 UserDefinedAggregateFunction 

e 重 载 实现 方法 inputSchema: 返回 StructType 字段 (power， 整 数 类 型 ) ， 作 为 be- 
lowThreshold 函数 的 输入 参数 ; 

e 重 载 实现 方法 BufferSchema: 返回 StructType 字段 (bool， 布 尔 值 类 型 ) ， 作 为 be- 
lowThreshold 函数 的 中 间 结 果 的 值 ; 

e 重 载 实现 方法 dataType: dataType 表示 belowThreshold 函数 返回 值 的 类 型 是 布尔 值 


类 型 ; 
e 重 载 实现 方法 deterministic: 设置 true， 在 给 定 输入 值 的 前 提 下 ，belowThreshold 生成 
一 组 相同 的 结 


重 载 实现 方法 initialize: 初始 化 buffer 的 第 0 个 元 素 布 尔 值 为 false， 用 于 初始 化 聚集 
缓冲 区 (MutableAggregationBuffer) 的 值 ; 
重 载 实现 方法 update: 如 果 读 入 input 每 行 的 第 0 个 元 素 不 为 空 ， 则 将 buffer 第 0 个 元 
素 原 布尔 值 与 读 入 input 每 行 的 第 0 个 元 素 power 值 是 否 小 于 “ -40” 进 行 逻辑 或 运 
算 ， 两 者 之 一 为 tue， 更 新 buffer 第 0 个 元 素 值 为 True。 即 读 和 人 数据 中 只 要 有 一 个 小 
于 “-40” 的 数据 ， 就 返回 true; 
重 载 实现 方法 merge: merge 用 于 合并 两 个 聚集 缓冲 区 ,将 第 一 个 缓冲 区 的 第 0 个 元 素 
的 布尔 值 与 第 二 个 缓冲 区 的 第 0 个 元 素 的 布尔 值 做 逻辑 或 运算 ， 作 为 合并 以 后 的 缓冲 
区 的 第 0 个 元 素 的 布尔 值 ; 

e 重 载 实现 方法 evaluate: belowThreshold 函数 的 最 终 计 算 结 果 为 : buffer 的 第 0 个 元 素 

的 布尔 值 。 

2) 构建 SparkContext 以 及 SQLContext， 导 入 Spark 的 sqlContext 隐 式 转换 类 import sql- 
Context. implicits. _， 用 于 将 一 个 RDD 隐 式 转换 为 一 个 DataFrame。 

3) 通过 se 的 parallelize 方法 读 入 Seq 集合 数据 ， 调 用 toDF( ) 方 法 转换 成 DataFrame ，df 
包括 两 列 : group，power。 
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4) 创建 belowThreshold 实例 belowThreshold 。 

5) 在 sqlContext udf 中 注册 belowThreshold 的 自 定义 函数 ， 判 断 输 入 的 数值 是 否 小 于 
“ -40”。, 

6) df 的 DataFrame 根据 oy 列 分 组 ， 使 用 agg 函数 通过 belowThreshold UDAF 也 数 判 > 
断 输入 power 列 的 数值 是 否 小 于 “ -40”， 查 询 打 印 结 


import org. apache. spark. | SparkContext,SparkConf!} 

import org. apache. spark. sql. | SQLContext, Row) 

import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, 
UserDefinedAggregateFunction| 


import org. apache. spark. sql. types. _ 


object myUDAF | 
class belowThreshold extends UserDefinedAggregateFunction | 
// 输 入 类 型 为 Int 类 型 
def inputSchema = new StructType( ). add( "power" , IntegerType) 


// 中 间 类 型 为 布尔 值 类 型 
def bufferSchema = new StructType( ). add( "bool" ,BooleanType) 
// 返 回 类 型 为 布尔 值 类 型 
def dataType = BooleanType 


// 在 给 定 输入 值 的 前 提 下 ,此 UDAF 总 是 生成 一 组 相同 的 结果 


def deterministic = true 


// 初 始 值 为 false 
def initialize( buffer: MutableAggregationBuffer) = buffer. update (0 ,false) 
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/注意 两 个 bool 值 之 间 的 “ 
def update( buffer: Mutable AggregationBuffer, input: Row) = | 
if( | input. isNullAt(0)) 
buffer. update( 0, buffer. getBoolean(0 ) | input. getInt(0) <—40) 


def merge( bufferl :MutableAggregationBuffer ,buffer2 :Row) = | 
bufferl. update (0, bufferl. getBoolean( 0) | buffer2. getBoolean(0) ) 


def evaluate( buffer:Row) = buffer. getBoolean(0) 


def main( args: Array| String | ) | 
val conf = newSparkConf( ). setAppName(" MyUDAF" ). setMaster( "local[l * ]") 


ark SQL 大 数据 实例 开发 教程 


val sc = newSparkContext( conf) 


val sqlContext = new SQLContext( sc ) 
import sqlContext implicits. _ 


val df = sc. parallelize (Seq(("a",10),("a",20),("b",30),("b",—50))).toDF(" 


group" ," power" ) 


// 实 例 化 belowThreshold ,向 Spark SQL 的 功能 注册 表 注 册 此 UDAF 


val belowThreshold = new belowThreshold( ) 
sqlContext. udf. register( "belowThreshold" ,belowThreshold ) 


// 在 Driver 上 打印 结果 
df. groupBy( $"group" ). agg( belowThreshold( $"power" ). alias( "belowThreshold" ) ). show 


sc. stop( ) 


| 


在 本 地 运行 > 结果 如 下 所 示 : 


group | belowThreshold | 
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a | false | 


b | true | 


YearCompare 函数 


函数 名 称 ; YearCompare。 

函数 功能 : 统计 今年 同比 去 年 销售 金额 的 增长 率 。 

本 案例 我 们 在 Spark - Shell 中 操作 UDAF。 

1) 首先 ， 启动 Spark 集群 ， 在 命令 行 中 输入 Spark - Shell， 导 入 所 需 的 类 。 

2) 定义 一 个 日 期 范围 的 case class DateRange ， 成 员 变 量 包括 起 始 日 期 、 终 止 日 期 ;inMiddle 
方法 对 传人 的 日 期 进行 判断 ， 如 果 日 期 在 起 始 日 期 、 终 止 日 期 之 间 ， 则 返回 true 值 。 

3) 定义 一 个 顾客 信息 的 case class Customer， 成 员 变 量 包括 ID 号 ， 名 字 ， 销 售 价格 ， 
折扣 价格 ， 州 名 ， 销 售 日 期 。 

4) 定义 YearCompare 类 继承 至 UserDefinedAggregateFunction: 

e YearCompare 私有 方法 subtractOneYear: 将 传人 的 时 间 年 份 减 1， 即 去 年 的 时 间 日 期 ; 
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e YearCompare 私有 成 员 变 量 previous: 将 YearCompare 传人 的 current 日 期 的 起 始 日 期 、 

终止 日 期 分 别 减 去 1 年 ， 重 新 构建 一 个 去 年 的 DateRange 日 期 范围 ， 即 (去 年 的 起 始 

日 期 、 去 年 的 终止 日 期 ) 作为 previous; 
全 重 载 实现 方法 inputSchema : 返回 StructType 字段 (销售 额 metric, 浮 点 数 类 型 ) » ( 时 > 
间 日 期 ， 日 期 类 型 ) ， 作 为 YearCompare 函数 的 输入 参数 ; 


。 重 载 实现 方法 BufferSchema: 返回 StructType 字段 (今年 销售 额 总 量 sumOfCurrent， 浮 
点 数 类 型 ) ，( 去 年 销售 额 总 量 sumOfPrevious ， 浮 点 数 类 型 ) 作为 YearCompare 国 数 的 
中 间 结 果 的 值 ; 


e 重 载 实 现 方法 dataType: dataType 表示 YearCompare 图 数 返回 值 的 类 型 是 浮 点 数 类 型 ; 
重 载 实现 方法 deterministic: 设置 tue， 在 给 定 输入 值 的 前 提 下 ，YearCompare 生成 一 
组 相同 的 结果 ; 

e 重 载 实现 方法 initialize: 初始 化 buffer 的 第 0 个 元 素 今年 销售 额 总 量 sumOfCurrent 为 
0.0， 初 始 化 buffer 的 第 1 个 元 素 去 年 销售 额 总 量 sumOfPrevious 为 0.0， 用 于 初始 化 聚 
集 缓冲 区 ( MutableAggregationBuffer) 的 值 ; 

e 重 载 实 现 方法 update: 如 果 读 入 input 行 的 第 1 个 元 素 日 期 在 current 今年 日 期 的 起 始 
日 期 、 终 止 日 期 范围 之 内 ， 则 将 buffer 第 0 个 元 素 今年 销售 额 总 量 sumOfCurrent 加 上 
读 入 input 行 的 第 0 个 元 素 销售 额 metric， 即 统计 今年 的 销售 额 ; 如 果 读 和 人 input 行 的 
第 1 个 元 素 日 期 在 previous 去 年 日 期 的 起 始 日 期 、 终 止 日 期 范围 之 内 ， 则 将 buffer 第 1 
个 元 素 去 年 销售 额 总 量 sumOfPrevious 加 上 读 入 input 行 的 第 0 个 元 素 销 售 额 metric ， 
即 统计 去 年 销售 额 总 量 ; 

e 重 载 实现 方法 merge: merge 用 于 合并 两 个 聚集 缓冲 区 ， 将 第 一 个 缓冲 区 的 第 0 个 元 素 

的 今年 销售 额 总 量 sumOfCurent 与 第 二 个 缓冲 区 的 第 0 个 元 素 的 今年 销售 额 总 量 su- 

m0OfCurrent 相 加 ， 作 为 合并 以 后 的 缓冲 区 的 第 0 个 元 素 的 今年 销售 额 总 量 ; 将 第 一 个 
缓冲 区 的 第 1 个 元 素 的 去 年 销售 额 总 量 sumOfPrevious 与 第 二 个 缓冲 区 的 第 1 个 元 素 
的 去 年 销售 额 总 量 sumOfPrevious 相 加 ， 作 为 合并 以 后 的 缓冲 区 的 第 1 个 元 素 的 去 年 
销售 额 总 量 ; 

e 重 载 实现 方法 evaluate: YearCompare 函数 的 最 终 计 算 结 果 为 ， 如 果 缓 冲 区 的 第 1 个 元 
素 即 去 年 销售 额 总 量 sumOfPrevious 为 0， 则 返回 0; 如 果 缓 冲 区 的 第 1 个 元 素 的 去 年 
销售 额 总 量 sumOfPrevious 不 为 0， 则 将 缓冲 区 的 第 0 个 元 素 即 今年 销售 额 总 量 sumOf- 
Current 减 去 缓冲 区 的 第 1 个 元 素 即 去 年 销售 额 总 量 sumOfPrevious， 然 后 除 以 缓冲 区 
的 第 1 个 元 素 即 去 年 销售 额 总 量 sumOfPrevious ， 然 后 乘 以 100 计算 出 百分比 ， 即 今年 
同比 去 年 销售 金额 的 增长 率 。 

5) 导入 Spark 的 sqlContext 隐 式 转换 类 import sqlContext. implicits. _， 用 于 将 一 个 RDD 

隐 式 转换 为 一 个 DataFrame。 

6) 构建 Seq 集合 顾客 信息 的 数据 data， 包 括 ID 号 ， 名 字 ， 销 售 价格 ， 折 扣 价 格 ， 州 

名 ， 销 售 日 期 。 

7) 通过 sc 的 parallelize 方法 读 和 Seq 集合 数据 data， 调 用 toDF ( ) 方法 转换 成 Dat- 
aFrame， 通 过 dataFrame. printSchema ( ) 打印 出 DataFrame 的 结构 。 通 过 registerTempTable 

("salesInfo" ) 方 法 将 DataFrame 注册 为 临时 表 salesInfo。 
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器 


8) 指定 日 期 范围 current， 实 例 化 取 集 水 数 YearCompare， 将 日 期 范围 current 传人 
YearCompare 国 数 。 

9) 向 Spark SQL 注册 yearCompare 的 UDAF 函数 ， 从 临时 表 salesmfo 查询 ， 调 用 
yearCompare 方法 ， 在 yearCompare 方法 中 传人 salesInfo 的 销售 额 、salesInfo 的 日 期 ， 然 后 将 
传人 的 salesInfo 日 期 与 current 日 期 、previous 日 期 进行 判断 ， 如 果 在 今年 的 日 期 范围 内 ， 统 
计 今 年 的 销售 额 ; 如 果 在 去 年 的 日 期 范围 内 ， 统 计 去 年 的 销售 额 ， 计 算出 今年 同比 去 年 销售 
金额 的 增长 率 。 最 后 ， 打 印 输出 结 


scala > import java. sql. | Timestamp ,Date | 


import java. sql. | Timestamp ,Date | 


scala > import org. apache. spark. sql. Row 


import org. apache. spark. sql. Row 


scala > importorg. apache. spark. sql. expressions. | MutableAggregationBuffer, UserDefinedAggregate- 
Function! 


import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, UserDefined AggregateFunction | 


scala > import org. apache. spark. sql. types. _ 


import org. apache. spark. sql. types. _ 
创建 case class ， 如 下 所 示 : 


scala > case classDateRange( startDate:Timestamp ,endDate :Timestamp ) | 
// 判 断 某 一 个 日 期 是 否 处 于 特定 的 日 期 范围 
def inMiddle( targetDate: Date) :Boolean = | 


targetDate. before( endDate) &&targetDate. after( startDate ) 


| 


defined classDateRange 


scala > case class Customer( id: Integer, name: String, sales: Double, discounts: Double , state : String , sale- 


Date:String) ”//ID 号 ,名 字 , 销 售 价格 ,折扣 , 州 名 ,销售 日 期 


defined class Customer 


创建 自 定义 的 类 YearCompare， 该 类 继承 了 UserDefinedAggregateFunction: 


scala > classYearCompare( current:DateRange)extends UserDefinedAggregateFunction | 
| val previous :DateRange = DateRange( subtractOneYear( current. startDate ) ， 


| subtractOneYear( current. endDate ) ) 


Type) 
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// 在 输入 的 参数 中 ,有 Double 类 型 的 ,也 有 Date 类 型 的 


def inputSchema:StructType = | 
StructType ( StructField ( " metric" , DoubleType ) : : StructField ( " timeCategory" , Date- O) 


:Nil) 


| 


/人 中间 结果 都 是 Double 类 型 
def bufferSchema:StructType = | 
StructType ( StructField ( " sumOfCurrent" , DoubleType ) : : StructField 


"sumOfPrevious" ,DoubleType) : :Nil) 


| 


// 此 UDAF 的 最 终 返 回 类 型 为 Double 
def dataType: org. apache. spark. sql. types. DataType = DoubleType 


// 在 给 定 输入 值 的 前 提 下 ,此 UDAF 总 是 生成 一 组 相同 的 结果 


def deterministic :Boolean = true 


def initialize( buffer: MutableAggregationBuffer) :Unit = | 
buffer. update( 0,0.0) 
buffer update( 1 ,0. 0) 


def update( buffer: MutableAggregationBuffer ,input: Row) :Unit = | 
if( current. inMiddle( input. getAs[ Date | (1)))| 
buffer(0) = buffer getAs[ Double ] (0) + input. getAs[ Double] (0) 
| 
if( previous. inMiddle(input getAs[ Date](1) ) ) | 
buffer(1) = buffer getAs[ Double](0) + input getAs[ Double] (0) 


def merge(bufferl :MutableAggregationBuffer,buffer2 :Row) :Unit = | 
bufferl (0) = bufferl. getAs| Double ] (0) + buffer2. getAs[ Double | (0) 
bufferl (1) = bufferl. getAs| Double ] (1) + buffer2. getAs[ Double | (1) 
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def evaluate( buffer: Row) : Any = | 
if( buffer. getDouble(1) ==0.0) | 
0.0 
| else| 


( buffer. getDouble( 0) — buffer. getDouble( 1 ) )/buffer. getDouble( 1) * 100 


// 减 掉 一 年 

private def subtractOneYear( date:Timestamp) :Timestamp = | 
val prev = new Timestamp( date. getTime) 
prev. setYear( prev. getYear -1) 


prev 


| 


defined classYearCompare 
接 下 来 ， 引 入 隐 式 转换 ; 


scala > importsqlContext. implicits. _ // 引 入 隐 式 转换 


import sqlContext. implicits. _ 
输入 数据 ， 代 码 如 下 所 示 : 


scala > val data = Seq( Customer(1," Widget Co" ,120200. 00 ,0. 00," AZ" ,"2015 -02 -28" ) ， 

| Customer(2," Acme Widgets" ,410600. 00 ,560. 00, "CA" ,"2015 -03 -08" ) ， 

| Customer(3," Widgetry" ,410550. 00 ,230. 00," CA" ,"2016 -05 -01" ) ， 

| Customer(4," Widgets R Us" ,410505. 00 ,0.0,"CA" ,"2016 -05 -04" ) ， 

| Customer(5," YeOldeWidgete" ,500. 00 ,0.0,"MA" ,"2016 -08 -15")) 
data: Seq| Customer | = List( Customer( 1, Widget Co, 120200.0,0.0,AZ,2015 - 02 - 28),Customer 
(2,Acme Widgets,410600.0,560.0,CA,2015 - 03 ~08),Customer(3, Widgetry,410550. 0,230.0, 
CA,2016 -05 -01) ,Customer(4,Widgets R Us,410505. 0,0.0,CA,2016 -05 -04),Customer(5,Ye 
OldeWidgete,500. 0,0.0,MA,2016 -08 -15) ) 


加 载 数据 ， 使 之 成 为 DataFrame， 即 数据 框架 : 


scala > val dataFrame = sc. parallelize( data). toDF( ) 

dataFrame :org. apache. spark. sql. DataFrame = [ ID :int,Name:string,Sales:double, Discounts :double， 
State:string,SaleDate:string | 

// 打 印 出 dataFrame 的 schema 


scala > dataFrame. printSchema( ) 
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root 
—— ID.integer( nullable = true) 

—— Name:string( nullable = true) 

—— Sales: double( nullable = false ) 号 
—— Discounts: double( nullable = false ) 


—— State: string( nullable = true) 


—— SaleDate :string( nullable = true) 


//dataFrame 注册 为 表 , 表 名 为 salesInfo 


scala > dataFrame. registerTempTable( " salesInfo" ) 


import java. sql. | Timestamp, Date| 

import org. apache. spark. | SparkContext,SparkConf!} 

import org. apache. spark. sql. {SQLContext, Row) 

import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, 
UserDefinedAggregateFunction| 

import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, 
UserDefined AggregateFunction | 


import org. apache. spark. sql. types. _ 


// 指 定 日 期 范围 

scala > val current = DateRange( Timestamp. valueOf( "2016 -01 -01 00:00:00" ) ,Timestamp. valueOf 
("2016 -10 -01 00:00:00" ) ) 

current: DateRange = DateRange(2016 -01 -01 00 :00:00.0,2016 -10 -01 00:00:00.0) 


// 实 例 化 聚集 函数 
scala > val yearCompare = new YearCompare( current ) 
yearCompare: YearCompare = $iwC $ $iwC $YearCompare@ 349c6b2d 


// 问 Spark SQL 的 功能 注册 表 注 册 名 为 yearCompare 的 UDAF 
scala > sqlContext. udf. register( " yearCompare" ,yearCompare ) 
resl] :org. apache. spark. sql. expressions. UserDefinedAggregateFunction = $iwC $ $iwC $ YearCompare 


@349c6b2d 


// 在 Driver 上 打印 出 结果 


scala > sqlContext. sql( " select yearCompare( sales ,saleDate ) as yearCompare from salesInfo" ). show( ) 


16/06/05 17:43:32 INFO scheduler DAGScheduler: Job 0 finished: show at < console > :35, took 
9. 261529 s 


下 


| yearCompare | 
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十 + 
| 54. 77675207234364 | 


WordCount 函数 


函数 名 称 : computeLength 及 UDAF 图 数 类 wordCount。 

函数 功能 .computeLength 函数 统计 输入 字符 串 的 长 度 ，UDAF 困 数 类 wordCount 统计 输 
人 单词 的 个 数 。 

函数 示例 : 这 个 示例 在 一 条 SQL 语句 中 同时 使 用 了 UDF 和 UDAF。 其 中 ，UDF 是 用 来 
计算 字符 串 的 长 度 ，UDAF 则 是 完成 词 频 统 计 的 功能 。 

1) 创建 SparkContext 对 象 及 SQLContext。 

2) 模拟 实际 使 用 的 数据 ， 构 建 数组 bigData。 

3) 基于 提供 的 数据 创建 DataFrame: 通过 sc 的 parallelize 方法 读 和 bigData 数据 ; 将 Dig- 
DataRDD 转换 成 RDD [Row]; 构建 StructType 变量 (单词 ， 字 符 串 类 型 ， 人 允许 为 空 ) ; 通过 
sqlContext. createDataFrame 方法 根据 bigDataRDDRow ，structType 构建 DataFrame， 将 bigDat- 
aDF 注册 为 临时 表 bigDataTable。 

4) 按照 模板 实现 UDAF: 

。 重 载 实现 方法 inputSchema: 返回 StructType 字段 (输入 字符 ， 字 符 串 类 型 ， 人 允许 为 
空 ) ， 作 为 MYUDAF 函数 的 输入 参数 ; 

重 载 实现 方法 BufferSchema: 返回 StructType 字段 (计数 次 数 ， 浮 点 类 型 ， 允许 为 

空 ) ， 作 为 MyUDAF 函数 的 中 间 结 果 的 值 ; 

重 载 实 现 方 法 dataType: dataType 表示 MyUDAF 函数 返回 值 的 类 型 是 整 型 ; 

重 载 实现 方法 deterministic: 设置 rue， 在 给 定 输入 值 的 前 提 下 ，MyUDAF 生成 一 组 相 

同 的 结 

重 载 实现 方法 initialize: 初始 化 计数 次 数 为 0， 用 于 初始 化 聚集 缓冲 区 (MutableAg- 

gregationBuffer) 的 值 ; 

重 载 实现 方法 update: 每 读 入 1 行 ， 将 计数 次 数 计 为 1， 在 缓冲 区 的 第 0 个 元 素 原 计 

数 次 数 基础 上 累加 1 作为 新 的 计数 次 数 ; 

重 载 实现 方法 merge: merge 用 于 合并 两 个 聚集 缓冲 区 ， 将 第 一 个 缓冲 区 的 第 0 个 元 素 

计数 值 加 上 第 二 个 缓冲 区 的 第 0 个 元 素 计 数值 ， 并 将 结果 存储 到 MutableAggregation- 

Buffer; 

e 重 载 实现 方法 evaluate: MyUDAF 函数 的 最 终 计算 结果 为 buffer 的 第 0 个 元 素 〈( 即 单 
词 累计 计数 次 数 ) 。 

5) SQLContext UDF 函数 的 综合 应 用 计算 字符 串 的 长 度 。 

e 在 sqlContext. udf 中 注册 computeLength 的 月 定义 函数 : 输入 字符 串 ， 统 计 字符 串 的 长 度 。 

直接 在 SQL 语句 中 使 用 computeLength UDF ， 在 临时 表 bigDataTable 中 查询 ， 查 询 单词 

名 、 使 用 computeLength 方法 计算 单词 长 度 ， 打 印 输出 结果 。 
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6) SQLContext UDAF 函数 的 综合 应 用 : 计算 词 频 统计 。 

e 在 sqlContext. udf 中 注册 wordCount 的 自 定义 函数 ， 将 创建 的 MyUDAF 实例 传人 。 

e 在 sqlContext. sql 语句 中 使 用 UDAF， 在 临时 表 bigDataTable 中 查询 ， 根 据 单词 分 组 ， 

查询 单词 名 、 使 用 MyUDAF UDAF 函数 统计 单词 次 数 ， 使 用 computeLength 方法 计算 他) 
单词 长 度 , 使 用 show( ) 打 印 输出 结果 。 


import org. apache. spark. sql. expressions. | Mutable AggregationBuffer, 
UserDefined AggregateFunction | 

import org. apache. spark. sql. types. _ 

import org. apache. spark. sql. | Row,SQLContext| 

import org. apache. spark. | SparkContext,SparkConf!} 


/六 六 

* 使 用 Scala 开发 集群 运行 的 SparkWordCount 程序 

* @ author DT 大 数据 梦 工 厂 
新 浪 微 博 . http://weibo. com/ilovepains/ 

* Created by hp on 2016/3/31. 

* 通过 案例 实战 了 解 Spark SQL 下 的 UDF 和 UDATF 的 具体 使 用 : 

x* 用 户 自 定义 的 函数 (User Defined Function,UDF) ,函数 的 输入 是 一 条 具体 的 数据 记录 ,实际 上 
就 是 普通 的 Scala 函数 ; 

x* 用 户 自 定义 的 聚合 函数 (User Defined Aggregation Function, UDAF) ,函数 本 身 作 用 于 数据 集 
合 , 能 够 在 聚合 操作 的 基础 上 进行 自 定义 操作 ; 


* 


* 


* 实际 上 ,UDF 会 被 Spark SQL 中 的 Catalyst 封装 成 为 Expression ,最 终 会 通过 eval 方法 来 计算 输 
入 的 数据 Row( 此 处 的 Row 和 DataFrame 中 的 Row 没有 任何 关系 ) 

水 

*/ 
object SparkSQLUDFUDAF | 


def main( args: Array| String | ) | 

/六 六 
x* 第 1 步 : 创 建 Spark 的 配置 对 象 SparkConf ,设置 Spark 程序 的 运行 时 的 配置 信息 ， 
例如 通过 setMaster 来 设置 程序 要 链接 的 Spark 集群 的 Master 的 URL, 如果 设 置 
为 local , 则 代表 Spark 程序 在 本 地 运行 ,特别 适合 机 器 配置 条 件 非 常 差 (例如 
只 有 1GB 的 内 存 ) 的 初学 者 
*/ 

val conf = newSparkConf( )// 创 建 SparkConf 对 象 

conf setAppName(" SparkSQLUDFUDAF" ) 人 设置 应 用 程序 的 名 称 , 在 程序 运行 的 监控 界面 可 

以 看 到 名 称 
//conf. setMaster(" spark ://Master:7077" )// 此 时 ,程序 在 Spark 集群 
conf setMaster( "local[l * ]") 


了 
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x* 第 2 步 . 创 建 SparkContext 对 象 

x* SparkContext 是 Spark 程序 所 有 功能 的 唯一 人口 ,采用 Scala Java Python R 等 都 必须 有 一 
个 SparkContext 

# SparkContext 的 核心 作用 :初始 化 Spark 应 用 程序 运行 所 需要 的 核心 组 件 , 包 括 * DAG- 
Scheduler .TaskScheduler .SchedulerBackend 

x* 同时 还 会 负责 Spark 程序 往 Master 注册 程序 等 

* SparkContext 是 整个 Spark 应 用 程序 中 最 为 至 关 

*/ 

val sc = newSparkContext ( conf )// 创 建 SparkContext 对 象 ,通过 传人 SparkConf 实例 来 定 币 

Spark 运行 的 具体 参数 和 配置 信息 


[hil 


要 的 一 个 对 象 


val sqlContext = new SQLContext( sec) 人 /构建 SQL 上 下 文 

// 模 拟 实际 使 用 的 数据 

val bigData = Array( " Spark" ," Spark" ," Hadoop" ," Spark" ," Hadoop" ," Spark" ," Spark" ," Ha- 
doop" ," Spark" ," Hadoop" ) 


// 基 于 提供 的 数据 创建 DataFrame 

val bigDataRDD = sc. parallelize( bigData) 

val bigDataRDDRow = bigDataRDD. map(item => Row( item) ) 

val structType = StructType( Array( StructField( " word" , StringType, true ) ) ) 
val bigDataDF = sqlContext. createDataFrame( bigDataRDDRow ,structType) 


bigDataDF. registerTempTable(" bigDataTable" )// 注 册 成 为 临时 表 


玉 训 从 
* 通过 SQLContext 注册 UDF ,在 Scala 2. 10.x 版 本 中 ,UDF 函数 最 多 可 以 接受 22 个 输入 
参数 
*/ 


sqlContext. udf. register( " computeLength" , (input: String) => input. length) 
p 8 Pp 8 


// 直 接 在 SQL 语句 中 使 用 UDF ,就 像 使 用 SQL 自动 的 内 部 函数 一 样 
sqlContext. sql( " select word ,computeLength( word ) as length from bigDataTable" ). show 
// 注 册 UDAF 
sqlContext. udf. register( " wordCount" ,new MyUDAF ) 


sqlContext. sql(" select word ,wordCount( word ) as count, computeLength ( word ) as length from bigDataT- 
able group by word" ). show( ) 

| 
| 
/ 米 米 

* 按照 模板 实现 UDAF 

*/ 
classMyUDAF extends UserDefinedAggregateFunction | 

/ 米 米 

* 该 方法 指定 具体 输入 数据 的 类 型 
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* @ return 
*/ 
override def inputSchema: StructType = StructType( Array( StructField( " input" ,StringType ,true) ) ) 


/沙沙 
* 在 进行 聚合 操作 的 时 候 所 要 处 理 的 数据 的 结果 类 型 
* @ return 
*/ 


override def bufferSchema :StructType = StructType( Array( StructField( " count" , IntegerType ,true ) ) ) 
/ 米 米 

* 指定 UDAF 函数 计算 后 返回 的 结果 类 型 

* @ return 

*/ 
override def dataType: DataType = IntegerType 


override def deterministic: Boolean = true 


/六 六 
* 在 Aggregate 之 前 每 组 数据 的 初始 化 结果 
* @ param buffer 
*/ 

override def initialize( buffer: MutableAggregationBuffer) :Unit = | buffer(0) =0} 


/ 米 米 
* 在 进行 聚合 的 时 候 , 每 当 有 新 的 值 进 来 ,对 分 组 后 的 聚合 如 何 进行 计算 
x* 本 地 的 聚合 操作 ,相当 于 HadoopMapReduce 模型 中 的 Combiner 
* @ param buffer 


* @ param input 
*/ 

override def update( buffer: MutableAggregationBuffer, input: Row) :Unit = | 
buffer(0) = buffer. getAs[ Int ] (0) +1 


/六 六 
* 最 后 在 分 布 式 结 点 进行 Local Reduce 完成 后 需要 进行 全 局 级 别 的 Merge 操作 
* @ param bufferl 
* @ param buffer2 
*/ 
override def merge( bufferl :MutableAggregationBuffer ,buffer2 :Row) :Unit = | 
bufferl (0) =bufferl. getAs| Int ] (0) +buffer2. getAs| Int](0) 


大 
* 返回 UDAF 最 后 的 计算 结果 
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* @ param buffer 
* @ return 
*/ 
override def evaluate( buffer: Row) :Any = buffer. getAs| Int | (0) 
| 


在 本 地 运行 ， 绪 果 如 下 所 示 。 


十 十 十 


word | length | 
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Hadoop 


十 十 十 


十 十 十 


十 
| word | count | length | 
十 


十 十 十 
| Spak| 6| 5 
| Hadoop | 4 | 6 | 


十 十 十 十 


区 吉明 本 章 小 结 


本 章 曾 述 了 Spark SQL UDF 与 UDAF 的 使 用 ， 在 实际 生产 环境 中 ， 数 据 库 内 置 的 函数 并 
不 一 定 能 满足 业务 的 需要 ， 这 时 可 以 使 用 自 定 义 的 UDF 构建 能 实现 业务 功能 的 函数 ， 像 内 
置 的 函数 一 样 使 用 ;，UDAF 是 用 户 自 定义 的 取 合 聘 数 ， 函 数 本 身 作 用 于 数据 集合 ， 能 够 在 聚 
合 操 作 的 基础 上 进行 自 定义 操作 。 
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Spark 从 1.1 开始 增加 了 CLI 和 Thrift Server， 使 得 Hive 用 户 很 容易 地 上 手 Spark SQL。 
Spark SQL 可 以 作为 一 个 分 布 式 查 询 引 擎 ， 使 用 JDBCZODBC 或 命令 行 界面 。 在 这 种 模式 下 ， 
终端 用 户 或 应 用 程序 可 以 直接 与 Spark SQL 进行 SQL 查询 交互 ， 而 无 须 编写 任何 代码 。 

本 章 将 介绍 Thri 的 基本 概念 以 及 如 何 使 用 Thrift Server 来 与 Spark SQL 进行 交互 。 


[| Thrift 概述 
| Thrift 的 基本 概念 ) 


Thrift 最 初 由 Facebook 用 做 系统 内 各 语言 之 间 的 RPC 通信 。2007 年 由 Facebook 贡献 到 
Apache 基金 ， 之 后 发 展 成 为 一 种 可 伸缩 的 、 跨 语言 的 服务 开发 框架 。 


Apache Thrift 一 可 伸缩 的 跨 语 言 服务 开发 框架 。 


我 们 熟知 的 服务 调用 方式 有 很 多 种 ， 比 如 : 基于 SOAP 消息 格式 的 Web Service， 基 于 
JSON 消息 格式 的 RESTful 等 等 。 所 使 用 的 数据 传输 方式 有 : XML、JSON 等 ,然而 XML 相 
对 体积 太 大 ， 传 输 效 率 低 ，JSON 体积 较 小 ， 但 还 不 够 完善 。 

Apache Thrift 采用 接口 描述 语言 定义 并 创建 服务 ， 支 持 可 扩展 的 跨 语言 服务 开发 ， 所 包 
含 的 代码 生成 引擎 可 以 在 多 种 语言 中 使 用 如 ，jJava、C ++、 Python 、PHP、Ruby 、Perl 、C 
# 等 等 。 其 传输 数据 采用 二 进 制 格式 ， 相 对 XML 和 JSON 体积 更 小 ， 对 于 高 并 发 、 大 数据 量 
和 多 语言 的 环境 更 有 优势 。 

Spark Thrift Server 是 Spark 框架 中 的 一 个 应 用 程序 ，Spark Thrift Server 启动 的 时 候 ， 会 
启动 Spark Context、Spark SqlContext ， 最 终 调用 第 三 方 Hive 框架 中 的 HiveServer2; 而 第 三 方 
Hive 框架 的 HiveServer2 不 仅仅 提供 给 Spark Thrift Server 使 用 ， 而 且 作 为 API 接口 ， 可 以 直 
接 提供 Java JDBC 连接 Hive Server2; 第 三 方 Hive 框架 中 的 HiveServer2 使 用 ApacheThrift 的 
协议 开发 ，Thrift 是 Facebook 实现 的 一 种 高 效 的 、 支 持 多 种 编程 语言 的 远程 服务 调用 的 
框架 。 

Thrift 的 基本 概念 包括 数据 类 型 、 传 输 协 议 、 传 输 层 、 服 务 端 类 型 等 。 数 据 类 型 包含 基本 
类 型 、 结 构 体 、 容 器 、 异 常 、 服 务 类 型 ;传输 协议 是 Thrift 客户 端 和 服务 器 端 远程 调用 传输 数 
据 采 取 的 数据 格式 ; 传输 层 是 数据 传输 方式 ; 服务 端 类 型 包括 单线 程 服务 、 多 线程 服务 等 。 
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1. 数据 类 型 

Thrift 脚本 可 定义 的 数据 类 型 包括 以 下 几 种 类 型 ; 

1) 基本 类 型 ; 

e bool: 布尔 值 ，true 或 false， 对 应 Java 的 boolean。 

e byte: 8 位 有 符号 整数 ， 对 应 Java 的 byte。 

e il6: 16 位 有 符号 整数 ， 对 应 Java 的 short。 

e i32: 32 位 有 符号 整数 ， 对 应 Java 的 int。 

e i64: 64 位 有 符号 整数 ， 对 应 Java 的 long。 

e double: 64 位 浮 点 数 ， 对 应 Java 的 double。 

e string: 未 知 编码 文本 或 二 进 制 字符 串 ， 对 应 Java 的 String。 

2) 结构 体 类 型 : 

e struct: 定义 公共 的 对 象 ， 类 似 于 C 语言 中 的 结构 体 定义 ， 在 Java 中 是 一 个 JavaBean。 

e list: 对 应 Java 的 ArrayList。 

e set: 对 应 Java 的 HashSet。 

e map: 对 应 Java 的 HashMap。 

4) 异常 类 型 : 

e exception : 对 应 Java 的 Exception 。 

5) 服务 类 型 : 

e service: 对 应 服务 的 类 。 

2. 协议 

Thrift 可 以 让 用 户 选 择 客户 端 与 服务 端 之 间 传 输 通 信 协 议 的 类 别 ， 在 传输 协议 上 总 体 划 
分 为 文本 (Text) 和 二 进 制 (Binary) 传输 协议 ， 为 节约 带宽 ， 提 高 传输 效率 ， 一 般 情况 下 
使 用 二 进 制 类 型 的 传输 协议 为 多 数 ， 有 时 也 会 使 用 基于 文本 类 型 的 协议 ， 这 需要 根据 项 目 / 
产品 中 的 实际 需求 。 常 用 协议 有 以 下 几 种 : 
二 进 制 编码 格式 进行 数据 传输 。 
高 效率 的 、 密 集 的 二 进 制 编码 格式 进行 数据 传输 。 
使 用 JSON 的 数据 编码 协议 进行 数据 传输 。 
只 提供 JSON 只 写 的 协议 , 适用 于 通过 脚本 语言 解析 。 


1) TBinaryProtocol 


2) TCompactProtocol 
3) TJSONProtocol 
4) TSimpleJSONProtocol 
3. 传输 层 

Thrift 常用 的 传输 层 有 以 下 几 种 : 


1) TSocket 使 用 阻塞 式 IO 进行 传输 ， 是 最 常见 的 模式 。 
2) TFramedTransport 使 用 非 阻塞 方式 ， 按 块 的 大 小 进行 传输 ， 类 似 于 Java 中 
的 NIO。 


使 用 非 阻塞 方式 ， 用 于 构建 异步 客户 端 。 


3) TNonblockingTransport 
4. 服务 端 类 型 

Thrift 常见 的 服务 端 类 型 有 以 下 几 种 : 

单线 程 服务 器 端 使 用 标准 的 阻塞 式 1/0。 

多 线程 服务 器 端 使 用 标准 的 阻塞 式 /0。 


1) TSimpleServer 
2) TThreadPoolServer 
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多 线程 服务 器 端 使 用 非 阻 塞 式 LO。 


和 2 Thritt 的 工作 机 制 BD 


我 们 在 布置 分 布 式 大 数据 系统 时 ， 和 希望 给 数据 分 析 师 或 者 运营 人 员 提 供 一 种 工具 ,他 们 记 和 

可 以 通过 Web 方式 提交 SQL 查询 ， 或 者 说 直接 通过 Web 控制 台 来 操作 大 数据 系统 。 
要 想 达 到 这 种 目标 ， 就 需要 一 种 特定 的 机 制 来 访问 我 们 的 Hadoop 或 者 Spark。 而 Thrift 

Server 正 是 起 到 这 个 作用 ， 通 过 它 就 可 以 实现 从 Web 的 角度 来 访问 Spark SQL。 图 7-1 所 示 

是 一 个 非常 经 典 的 Spark SQL 企业 应 用 实现 架构 ， 从 中 可 以 看 出 Thrift Server 的 作用 : 


3) TNonblockingServer 


JDBC/ODBC 也 ThriftServer 也 Spark SQL 人 也 Hive 数 据 仓库 | 


图 7-1 Spark SQL 企业 应 用 实现 架构 


Thrift Server 在 JDBCZODBC 和 Spark SQL 之 间架 设 了 一 座 桥梁 ,通过 JDBC/ODBC 接口 
访问 Thrift Server，Thrift Server 访问 Spark SQL。 对 用 户 而 言 ， 类 似 通过 JDBCZODBC 访问 
Oracle 数据 库 ， 用 户 通过 JDBCZODBC 的 接口 访问 Thrift Server， 相 当 于 直接 访问 操作 Hive 数 
据 仓库 中 的 数据 。 

在 实时 性 要 求 不 高 的 情况 下 ，JDBC/ODBC + Thrift Server + Spark SQL + Hive 数据 仓库 
架构 甚至 可 取代 以 传统 关系 数据 库 为 后 台 的 数据 处 理 系统 。 


Thrift 的 运行 机 制 


Apache Thrift 包含 一 个 完整 的 堆栈 结构 用 于 构建 客户 端 和 服务 器 端 ，Thrift 的 体系 架构 
如 下 图 7-2 所 示 : 

Thrift 体系 架构 分 析 说 明 如 下 : 

(1) 用 户 开发 者 编写 的 脚本 及 代码 

1) 用 户 定义 编写 Thrift 服务 接口 描述 脚本 ， 如 Hello. thrift。 

2) 用 户 编写 服务 器 端 业务 代码 : 实现 用 户 自 己 服务 端的 业务 逻辑 代码 。 

3) 用 户 编写 客户 端 业 务 代 码 : 实现 用 户 自己 客户 端的 业务 逻辑 代码 。 

(2) Apache Thrift 框架 自动 编码 

1) Apache Thrift 自动 生成 客户 端 框架 代码 。 客 户 端 框架 代码 按照 服务 接口 描述 文件 生成 。 

2) Apache Thrift 根据 用 户 定 义 的 Thrift 定义 的 服务 接口 描述 文件 (如 Hello. thrift) 自动 
生成 服务 顺 端 框架 代码 。 

3) Apache Thrift 同时 也 生成 数据 的 读 写 操作 方法 。 

(3) 使 用 Thrift 选择 不 同 的 传输 协议 

例如 : 

使 用 TCompactProtocol 协议 构建 的 HelloServiceServer. java; 


TCompactProtocol. Factory proFactory = new TCompactProtocol. Factory( ) ; 


户 自己 实现 的 业务 


Client 逻辑 代码 
Your Code 
的 代码 
客户 端 根据 Thrift 定 义 的 服务 接口 服务 器 端 
代码 框架 ” 几 二 ”。 描述 文件 生成 的 客户 濡 “了 代码 柜 架 
和 服务 器 端 代码 框架 
读 写 操作 读 写 操作 
方法 根据 Thrift 文 件 生成 代码 -二 二 | 方法 
实现 数据 的 读 写 操作 


图 7-2 Thrift 体系 架构 图 


使 用 TCompactProtocol 协议 的 HelloServiceClient. java; 


TCompactProtocol protocol = new TCompactProtocol( transport ) ; 


(4) 使 用 Thrift 选择 不 同 的 传输 层 
例如 : 
使 用 TFramedTransport 传输 层 构 建 的 HelloServiceServer. java; 


// TNonblockingServerSocket 类 继承 TNonblockingServerTransport 
TNonblockingServerTransport serverTransport; 

serverTransport = new TNonblockingServerSocket( 10005 ) ; 

Hello. Processor processor = new Hello. Processor( new HelloServiceImpl( ) ) ; 
TServer server = new TNonblockingServer( processor ,serverTransport ) ; 
System. out. println( " Start server on port 10005 ..."); 


server. serve( ) ; 
使 用 TFramedTransport 传输 层 的 HelloServiceClient. java; 


TTransport transport = new TFramedTransport( new TSocket( "localhost" ,10005 ) ) ; 


(5) Thrift 支持 的 服务 模型 . 
e TSimpleServer 一 简单 的 单线 程 服务 模型 ， 常 用 于 测试 。 
e TThreadedServer 一 多 线程 服务 模型 ， 使 用 阻塞 式 1I0 ， 每 个 请 求 创建 一 个 线程 。 
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e TThreadPoolServer 一 线程 池 服 务 模型 ， 使 用 标准 的 阻塞 式 I0， 预 先 创建 一 组 线程 处 理 
请 求 。 

e TNonblockingServer 一 多 线程 服务 模型 ， 使 用 非 阻塞 式 IO ( 需 使 用 TFramedTransport 数 
据 传输 方式 ) 。 > 

使 用 TSimpleServer 服务 端 构 建 的 HelloServiceServer. java 

TServerSocket serverTransport = new TServerSocket(7911 ) ; 

TProcessor processor = new Hello. Processor( new HelloServiceImpl( ) ) ; 

TServer server = new TSimpleServer( processor ,serverTransport ) ; 

System. out. println( " Start server on port 7911..."); 


server. serve( ) ; 


| 714 一 个 简单 的 Thrift 实例 ) 


本 市 讲解 的 Thrift 实例 ， 是 Thrift 开发 的 “Helle World” 示 例 。 整 个 过 程 为 ， 先 启动 
Thrift 服务 端 服务 ， 再 启动 客户 端 ， 客 户 端 调用 服务 端 helloVoid 方法 ,实现 在 服务 端 打印 输 
出 “Hello World”。 本 节 Thrift 例子 包括 服务 器 代码 编写 、 客 户 端 代 码 编写 、Thrift 服务 接口 
描述 脚本 编写 。 在 7. 4 节 还 将 讲解 Spark Thrift Server 应 用 示例 ， 通 过 JDBC 访问 Spark Thrift 
Server，Spark Thrift Server 访问 Spark SQL， 然 后 通过 Spark SQL 操作 Hive 数据 库 的 数据 。 

本 节 Thrift 例子 中 服务 器 编 写 的 一 般 步 又 如 下 : 

1) 创建 Handler : 消息 处 理 者 ， 负 责 消 息 的 发 送 及 处 理 。 

2) 基于 Handler 创建 Processor。 

3) 创建 Transport。 

4) 创建 Protocol 方式 。 

5) 基于 Processor，Transport 和 Protocol 创建 Server。 

6) 运行 Server。 

客户 端 编写 的 一 般 步 又 如 下 : 

1) 创建 Transport。 

2) 创建 Protocol 方式 。 

3) 基于 Transport 和 Protocol 创建 Client。 

4) 运行 Client 的 方法 。 

我 们 将 通过 这 个 简单 的 Thrift 实现 示例 ， 来 让 大 家 直观 地 了 解 什么 是 Thrift 以 及 如 何 使 
用 Thrift 构建 服务 。 

下 面 将 创建 一 个 简单 的 服务 Hello， 实 现 helloString、helloInt、helloBoolean 、helloVoid、 
helloNull 等 接口 功能 。 可 以 在 集成 开发 环境 如 InteliJ IDEA Community Edition 、Eclipse Jee 
Neon 进行 开发 。Hello 业务 逻辑 的 服务 端 、 客 户 端 、Thrift 的 语法 规范 文件 由 用 户 自 己 开发 
编写 ，Thrift 框架 的 服务 器 、 客 户 端 框架 代码 由 Apache Thrift 框架 自动 编码 。 

1) 首先 根据 Thrift 的 语法 规范 编写 脚本 文件 : Hello. thrift。Hello. thrift 可 以 使 用 记事 本 
编辑 ， 也 可 以 使 用 集成 开发 环境 如 Intellij IDEA Community Edition 、Eclipse Jee Neon 等 开发 
工具 进行 编辑 ， 文 件 后 级 名 使 用 . thrift 保存 。 
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namespace java service. demo 


service Hello | 


| 


string helloString( 1 : string para) 
132 helloInt(1.:132 para) 

bool helloBoolean( 1 :bool para) 
void helloVoid( ) 

string helloNull( ) 


其 中 定义 了 服务 Hello 的 五 个 方法 ， 每 个 方法 包含 一 个 方法 名 ， 参 数列 表 和 返回 类 型 。 
每 个 参数 包括 参数 序号 ， 参 数 类 型 以 及 参数 名 。 

Thrift 是 对 IDL( Interface Definition Language) 描述 性 语言 的 一 种 具体 实现 。 因 此 ， 以 上 的 
服务 描述 文件 使 用 IDL 语法 编写 。 使 用 Thrift 工具 编译 Hello. thrift， 就 会 生成 相应 的 Hel- 
lo. java 文件 。 该 文件 包含 了 在 Hello. thrift 文件 中 描述 的 服务 Hello 的 接口 定义 ， 即 Hel- 
lo. Iface 接口 ， 以 及 服务 调用 的 底层 通信 细节 ， 包 括 客户 端的 调用 逻辑 Hello. Client 以 及 服务 
器 端的 处 理 逻 辑 Hello. Processor， 用 于 构建 客户 端 和 服务 器 端的 功能 。 

2) 创建 HelloServiceImpl. java 文件 并 实现 Hello. java 文件 中 的 Hello. Iface 接口 。 


package service. demo ; 


import org. apache. thrift. TException ; 


public classHelloServiceImpl implements Hello. Iface| 


@ Override // 如 果 参 数 是 boolean 类 型 ,返回 boolean 类 型 值 
public booleanhelloBoolean( boolean para) throws TException | 


return para; 
| 
@ Override // 如 果 参 数 是 int 类 型 ,返回 int 类 型 值 
public inthelloInt( int para) throws TException | 
try| 
Thread. sleep( 20000 ) ; 
| catch( InterruptedException e) | 
e. printStackTrace( ) ; 


| 


return para; 


| 
@ Override // 如 果 参 数 是 null, 返 回 null 的 字符 上 
public StringhelloNull( ) throws TException | 


Ud 


return null; 


| 
@ Override // 如 果 参 数 是 String 类 型 ,返回 字符 串 值 
public StringhelloString( String para) throws TException | 


return para; 
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@ Override // 如 果 参 数 为 空 ,打印 输出 Hello World 
public voidhelloVoid( ) throws TException | 
System. out. println( " Hello World" ) ; 


| 


3) 创建 服务 器 端 实现 代码 文件 HelloServiceServer. java， 将 HelloServiceImpl 作为 具体 


的 处 理 器 传递 给 Thrift 服务 器 。 


package service. server; 
import org. apache. thrift. TProcessor; 
import org. apache. thrift. protocol. TBinaryProtocol; 
import org. apache. thrift. protocol. TBinaryProtocol. Factory; 
import org. apache. thrift. server. TServer; 
import org. apache. thrift. server. TThreadPoolServer; 
import org. apache. thrift. transport. TServerSocket; 
import org. apache. thrift. transport. TTransportException; 
import service. demo. Hello; 


import service. demo. HelloServiceImpl; 


public class HelloServiceServer| 
/六 六 
+ 启动 Thrift 服务 器 
* @ param args 
*/ 
public static void main( String[ | args) | 
try| 
// 设 置 服务 端口 为 7911 
TServerSocketserver Transport = new TServerSocket(7911 ) ; 
// 设 置 协议 工厂 为 TBinaryProtocol. Factory 


FactoryproFactory = new TBinaryProtocol. Factory( ) ; 


// 关 联 处 理 器 与 Hello 服务 的 实现 


TProcessor processor = new Hello. Processor( new HelloServiceImpl( ) ) ; 


TServer server = new TThreadPoolServer( processor ,serverTransport ， 


proFactory ) ; 


System. out. println( " Start server on port 7911..."); 


server. serve( ) ; 
| catch( TTransportException e) | 
e. printStackTrace( ) ; 


© 
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4) 创建 客户 端 实现 代码 文件 : HelloServiceClient. java， 调 用 Hello. client 访问 服务 端的 
逻辑 实现 。 


package service. client ; 
import org. apache. thrift. TException ; 
import org. apache. thrift. protocol. TBinaryProtocol; 
import org. apache. thrift. protocol. TProtocol; 
import org. apache. thrift. transport. TSocket; 
import org. apache. thrift. transport. TTransport; 
import org. apache. thrift. transport. TTransportException; 


import service. demo. Hello; 


public class HelloServiceClient | 
/六 六 

x* 调用 Hello 服务 

* @ param args 

*/ 

public static void main( String[ | args) | 
try| 
/设置 调用 的 服务 地 址 为 本 地 ,端口 为 7911 


TTransport transport = new TSocket( "localhost" ,7911 ) ; 


transport open( ) ; 
// 设 置 传输 协议 为 TBinaryProtocol 
TProtocol protocol = new TBinaryProtocol ( transport ) ; 
Hello. Client client = new Hello. Client( protocol) ; 


// 调 用 服务 的 helloVoid 方法 
client. helloVoid( ) ; 
transport close( ) ; 
| eatch(TTransportException e) | 
e. printStackTrace( ) ; 
| catch( TException e) | 
e. printStackTrace( ) ; 


| 
代码 编写 完 后 ， 先 运行 服务 器 HelloServiceServer. java， 再 启动 客户 端 HelloService- 
Client. java 调用 服务 Hello 的 方法 hellovoid， 可 在 服务 需 端 的 控制 台 窗 口 输出 “Hello World”。 
Thrift Server 的 启动 过 程 


我 们 将 通过 7.2.1 和 7.2.2 两 节 的 内 容 ， 介 绍 Thrift Sever 的 启动 过 程 ， 以 及 解析 
HiveThriftServer2 类 的 实现 。 
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在 1.2.1 版 本 的 Hive 中 ,通过 HiveServer2 实现 了 Thrift JDBC/ODBC 服务 。 可 以 通过 
beeline 命令 终端 来 测试 Thrift JDBC 服务 。 

HiveServer2 (HS2) 是 一 个 服务 带 的 接口 ， 使 远程 客户 端 通过 Hive 来 执行 查询 和 检索 
结果 。HiveServer2 基于 Thrift RPC， 是 HiveServer 的 一 个 改进 版 ， 支 持 多 用 户 并 发 HiveServer > 
和 认证 。 它 的 目的 是 提供 开放 的 API 接口 给 JDBC 和 ODBC 更 好 的 支持 。 


Thrift Sever 启动 详解 


Thrift Server 启动 的 时 候 ， 其 实 是 启动 了 一 个 Spark SQL 的 应 用 程序 ， 同 时 开启 一 个 侦 听 
器 ， 等 待 JDBC 客户 端的 连接 和 提交 查询 。 所 以 在 配置 Thrift Server 的 时 候 ， 可 以 在 配置 文 
件 中 配置 Thrift Server 的 主机 名 和 端口 ， 如 果 要 使 用 Hive 数据 的 话 ， 还 要 提供 Hive Metastore 
的 uris。 通 常 ， 可 以 在 conf/hive - site. xml 中 定义 以 下 几 项 配置 ， 也 可 以 使 用 环境 变量 进行 
配置 (环境 变量 的 优先 级 高 于 hive - site. xml) 。 

我 们 查看 一 下 本 示例 的 hive - site. xml 配置 ， 


root@ Master:/usr/local/ spark/spark — 1. 6. 3 -bin -hadoop2. 6/con 供 cat hive - site. xml 

< configuration > 

<property > 

< name > hive. metastore. uris < /name > 

< value > thrift.//Master:9083 </value > 

< description > Thrift URI for the remotemetastore. Used by metastore client to connect to remote 
metastore. </description > 

</property > 


</configuration > 


在 当前 hive -site. xml 中 只 配置 了 Hive Metastore 的 uris 的 信息 ， 其 他 配置 采用 默认 配置 。 

接 下 来 详细 讲解 Thrift Sever 的 启动 过 程 。 为 了 让 大 家 深刻 理解 Thrift Server 的 启动 过 程 ， 
我 们 这 里 “ 挖 一 个 坑 ”. 

先 把 HDFS 和 Spark 集群 启动 起 来 ,但 是 此 时 先 不 启动 Hive Metastore 服务 。 为 了 稍 后 方 
便 通 过 Spark Web 控制 台 来 查看 Job 的 运行 日 志 ， 此 时 需要 把 HistoryServer 启动 起 来 。 

e 在 Hadoop 目录 下 启动 start - dfs. sh 和 start -yarn. sh， 执 行 命令 . 


root@ Master:/usr/local/ hadoop/ hadoop —2. 7. 1/sbin# . /start - all. sh 
e 在 Spark 目录 下 执行 命令 : 
root@ Master:/usr/local/ spark/ spark -1. 6. 3 -bin — hadoop2. 6/sbin# . /start — all. sh 


e 在 Spark 目录 下 启动 HistoryServer: 


root@ Master:/usr/local/ spark/ spark -1.6.3 -bin -hadoop2. 6/sbin# . /start - history - server. sh 


e 通过 jps 查看 启动 的 进程 ， 至 少 包含 下 面 的 进程 
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root@ Master: ~# jps 
3426 Master 
2964 SecondaryNameNode 
3525 HistoryServer 
109654 Jps 
2733 NameNode 
3133 ResourceManager 


此 时 我 们 特意 没有 开启 Hive Metastore 元 数据 服务 。 


党 试 启动 Thrift Server 
为 了 启动 Thrift Server， 请 在 Spark 目录 运行 下 面 的 命令 


root@ Master: /usr/local/ spark/ spark —1. 6. 3 — bin -hadoop2. 6# . /sbin/ start — thriftserver. sh —— mas- 
ter 

spark://master:7077 

starting org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 , logging to 

/usr/local/spark/spark — 1.6.3 - bin - hadoop2. 6/logs/ spark — root — org. apache. spark. sql. hive. 


thriftserver. HiveThriftServer2 — 1 — Master. out 


在 命令 终端 上 将 会 显示 提示 : 正在 启动 HiveThriftServer2 ， 并 记录 到 对 应 的 日 志文 件 。 
此 时 ， 我 们 可 以 通过 VIM 编辑 器 来 打开 该 日 志文 件 ， 命令 如 下 : 


root@ Master :/ usr/ local/ spark/ spark —1. 6.3 — bin — hadoop2. 6# vim 
/usr/local/ spark/ spark —1. 6. 3 -bin -hadoop2. 6/ logs/ spark — root — org. apache. spark. sql. hive. thrift- 


server. HiveThriftServer2 — 1 - Master. out 
可 以 发 现 日 志 中 有 异常 信息 。 在 74 行 处 (以 实际 为 准 )， 可 以 看 见 有 异常 信息 : 


73 16/04/30 17:04:55 INFO hive. metastore :Waiting 1 seconds before next connection attempt. 

74 16/04/30 17.:.04.:56 WARN metadata. Hive: Failed to accessmetastore. This class should not accessed 
in runtime. 

75 org. apache. hadoop. hive. ql. metadata. HiveException: java. lang. RuntimeException: Unable to in- 
stantiate org. apache. hadoop. hive. ql. metadata. SessionHiveMetaStoreClient 

76 at org. apache. hadoop. hive. ql. metadata. Hive. getAllDatabases( Hive. java:1236) 

了 at org. apache. hadoop. hive. ql. metadata. Hive. reloadFunctions( Hive. java:174) 


过 上 面 的 日 志 信 息 ， 可 以 发 现 因 为 Hive 的 Metastore 服务 没有 启动 ， 所 以 导致 访问 
Metastore 失败 。 此 处 就 是 为 了 让 大 家 要 注意 分 析 日 志文 件 信息 ，Spark 的 很 多 日 志文 件 信 
息 ， 包 括 通过 Web 控制 台 都 可 以 用 来 理解 Spark 的 内 部 运行 机 制 。 

2. 正常 启动 Thrift Server ( 以 默认 传输 通道 模式 : binary 模式 ) 
1) 首先 ,正常 启动 Hive Metastore 服务 ， 命 令 如 下 : 


root@ Master:/usr/local/ spark/ spark -1.6.3 -bin - hadoop2. 6# hive —— service metastore®&r 
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或 者 也 可 以 采用 添加 输出 日 志文 件 的 方式 局 动 : 


hive —— servicemetastore > Metastore. log 2 >& 1& 


此 时 ， 通 过 ps 命令 查看 Hive Metastore 进程 ©) 


root@ Master:/usr/local/spark/spark — 1. 6.3 -bin ~ hadoop2. 6# ps — ef | grep hive 

root 5972 2559 22 17 :35 pts/12 00:00:09/usr/lib/java/ jdk1. 8.0_66/bin/java — Xmx256m 

— Djava. net. preferIPv4Stack = true - Dhadoop. log. dir =/usr/local/ hadoop/ hadoop — 2. 7. 1/logs 

— Dhadoop. log. file = hadoop. log - Dhadoop. home. dir =/usr/local/ hadoop/hadoop - 2.7.1 - Dha- 
doop. id. str = root 

— Dhadoop. root. logger = INFO, console - Djava. library. path =/usr/local/hadoop/hadoop — 2.7.1/ 
lib/native 

— Dhadoop. policy. file = hadoop — policy. xml - Djava. net. preferIPv4Stack = true - Xmx512m 

— Dhadoop. security. logger = INFO ,NullAppender org. apache. hadoop. util. RunJar 
/usr/local/hive/apache -hive —1.2. 1 — bin/lib/hive -service -1.2.1.jar 

org. apache. hadoop. hive. metastore. HiveMetaStore 


可 以 发 现 HiveMetaStore 服务 已 经 正确 启动 。 


[Ql Metastore 是 Hive 元 数据 的 集中 存放 地 ,元 数据 包括 表 的 名 字 、 表 的 列 和 分 区 及 其 属性 等 ,通常 存储 在 
关系 数据 库 如 MySQL、Derby 中 。 


2) 此 时 再 次 运行 start - thriftserver. sh， 执 行 命令 如 下 : 


root@ Master:/usr/local/ spark/ spark — 1.6.3 - bin - hadoop2. 6# . /sbin/start — thriftserver. sh -一 
master spark://master:7077 


打开 spark -root - wy apache. spark. sql. hive. thriftserver HiveThriftServer2 -1 - Master out 日 志 
文件 ， 没 有 发 现 异常 信息 。 我 们 仔细 阅读 日 志文 件 内 容 ， 尤 其 是 下 面 这 段 日 志 内 容 很 关键 ; 


Spark Command :/usr/lib/java/ jdk1. 8. 0_66/bin/java -cp 

/usr/local/ spark/spark — 1.6.3 - bin - hadoop2. 6/ con{/ :/usr/local/ spark/ spark - 1.6.3 - bin - ha- 
doop2. 6/lib/spark - assembly - 1. 6.0 — hadoop2. 6. 0. jar:/usr/local/ spark/ spark — 1.6.3 - bin - ha- 
doop2. 6/lib/ datanucleus — api — jdo — 3. 2. 6. jar :/usr/local/ spark/ spark -1.6.3 -bin -hadoop2. 6/lib/ 
datanucleus — core -3.2. 10. jar:/usr/local/ spark/ spark — 1. 6.3 -bin - hadoop2. 6/lib/ datanucleus — rd- 
bms —3. 2. 9. jar:/usr/local/ hadoop/ hadoop -2.7. 1/etc/hadoop/ -= Xms2G — Xmx2G 

org. apache. spark. deploy. SparkSubmit —— master spark ://master:7077 —— class 


org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 spark — internal 


16/05/11 11:52:06 INFOthriftserver. HiveThriftServer2 : Starting SparkContext 


通过 上 面 这 段 日 志 人 信息， 我 们 可 以 获知 启动 Spark SQL Thrift Server， 其 实 就 是 调用 
SparkSubmit 向 服务 器 集群 提交 一 个 class 为 HiveThriftServer2 的 普通 Spark 应 用 程序 。 
当然 ,我们 直接 使 用 Linux 的 ps 命令 也 可 以 查看 Thrift Server 具体 的 运行 信息 ， 如 下 所 示 : 
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root@ Master:/usr/local/spark/spark — 1. 6. 3 -bin - hadoop2. 6/con{# ps ~ ef | grep thriftserver 

root 125080 1 1 11:52 pts/12 00:.03.13/usr/lib/java/ jdk1. 8.0_66/bin/java -cp 

/usr/local/ spark/ spark — 1. 6. 3 - bin - hadoop2. 6/con{/ :/usr/local/ spark/ spark — 1. 6.3 -bin -ha- 
doop2. 6/lib/spark - assembly - 1. 6. 0 - hadoop2. 6. 0. jar:/usr/local/ spark/spark — 1. 6.3 -bin -ha- 
doop2. 6/lib/ datanucleus — api -= jdo — 3. 2. 6. jar:/usr/local/ spark/spark -1.6.3 -bin - hadoop2. 6/ 
lib/datanucleus - core — 3. 2. 10. jar:/usr/local/ spark/ spark — 1. 6. 3 - bin - hadoop2. 6/lib/ datanucle- 
us — rdbms — 3. 2.9. jar:/usr/local/hadoop/ hadoop — 2.7. 1/etc/hadoop/ - Xms2G - Xmx2G org. a- 
pache. spark. deploy. SparkSubmit -- master spark://master:7077 —— class org. apache. spark. sql. 
hive. thriftserver. HiveThriftServer2 spark — internal 


[0 Thrift Server 其 实 就 是 一 个 class 为 HiveThriftServer2 的 Spark 应 用 程序 。 


3， 以 HTTP 传输 通道 模式 启动 Thrift Server 

Thrift Server 的 传输 通道 模式 可 以 是 Binary 或 者 HTTP， 通 过 HTTP 传输 通道 ，Spark SQL 
Thrift Server 也 支持 发 送 Thrift RPC 消息 ， 这 种 方式 在 客户 端 和 服务 器 之 间 支 持 代理 中 介 是 特 
别 有 用 的 〈 例 如 : 负载 均衡 和 安全 原因 ) 。 

使 用 下 面 的 配置 以 支持 HTTP 模式 ， 如 表 7-1 所 示 。 


表 7-1 使 用 HTTP 模式 的 参数 表 


设置 参数 默 认 描 述 
hive. server2. transport. mode binary 值 为 htp ， 人 允许 以 HTTP 通道 模式 传输 
hive. serveI2. thrift. http. port 10001 HTTP 端口 
hive. server2. thrift. http. path cliservice 服务 端点 名 称 


以 上 参数 可 以 在 JDBC Connection URLs 系统 参数 中 传人 或 者 直接 配置 在 Hive 配置 信息 
文件 hive - site. xml 中 。 
1) 先 停止 刚才 已 经 启动 的 Thrift Sever: 


root@ Master:/usr/local/ spark/ spark — 1. 6. 3 — bin -hadoop2. 6/ sbin# . /stop — thriftserver. sh 
stopping org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 


2) 指定 以 HTTP 模式 再 次 运行 start - thriftserver. sh ， 执 行 命令 如 下 : 


root@ Master:/usr/local/ spark/ spark -1.6.3 — bin - hadoop2. 6# . /start — thriftserver. sh —— master 
spark://master:7077 —— hiveconf hive. server2. transport mode = http —— hiveconf hive. server2. 


thrift. http. path = cliservice 


此 时 HTTP 端口 没有 指定 ， 默 认 值 为 10001， 正 如 表 7-1 所 示 。 
现在 我 们 再 次 使 用 ps 命令 令 查 看 Thrift Server 具体 的 运行 信息 ， 如 下 所 示 : 


root@ Master:/usr/local/ spark/spark — 1. 6. 3 -bin -hadoop2. 6/sbin# ps — ef | grep thriftserver 
root 131000 1 99 17 :25 pts/14 00:;00.15/usr/lib/java/ jdk1. 8.0_66/bin/java -=- cp 
/usr/local/ spark/spark -1.6.3 -bin -hadoop2. 6/con{/ :/usr/local/ spark/spark -1.6.3— bin— 
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hadoop2. 6/lib/ spark - assembly - 1. 6. 0 - hadoop2. 6. 0. jar:/usr/local/ spark/spark -1.6.3 -bin — 
hadoop2. 6/lib/ datanucleus - api — jdo — 3.2.6. jar:/usr/local/spark/spark - 1.6.3 - bin - ha- 
doop2. 6/lib/datanucleus - core - 3. 2. 10. jar:/usr/local/ spark/spark — 1. 6.3 -bin ~ hadoop2. 6/lib/ 
datanucleus — rdbms - 3. 2. 9. jar:/usr/local/ hadoop/ hadoop - 2. 7. 1/etc/hadoop/ - Xms2G — Xmx2G O) 
org. apache. spark. deploy. SparkSubmit —— master spark://master:7077 —— class org. apache. spark. sql. 
hive. thriftserver. HiveThriftServer?2 spark - internal —— hiveconf hive. server2. transport. mode = http —— 


hiveconf hive. server2. thrift. http. path = cliservice 
3) 此 时 用 netstat 命令 可 以 查看 10001 端口 已 经 处 于 侦 听 状态 : 


root@ Master:/usr/local/ spark/spark — 1. 6. 3 -bin - hadoop2. 6/con{# netstat - aptl | grep 10001 
tcp6 0 0| ::]:100011 :;: |] : * LISTEN1956/java 


当 Thrift Server 以 HTTP 模式 启动 后 ， 就 可 以 被 beeling 或 者 JDBC 客户 端 程序 通过 HTTP 
通道 模式 来 进行 连接 操作 了 。 

4. 查看 ThriftServer 命令 参数 

运行 下 面 的 命令 : 


root@ Master:/usr/local/ spark/ spark -1.6.3 -bin - hadoop2. 6/sbin# . /start — thriftserver. sh —— help 


通过 使 用 -- help 参数 ， 可 以 列 出 ThriftServer 的 命令 参数 ， 如 表 7-2 所 示 : 


Usage:. /sbin/ start — thriftserver[ options | [ thrift server options | 


表 7-2 ThriftServer 命令 参数 


参数 名 称 功 能 
—— master MASTER_URL 指定 Master 位 置 。 例 如 : spark ://host:port, mesos://host:port,yam ,或 者 Local 
客户 端 模式 启动 Driver ("elient" 或 以 集群 模式 启动 ("cluster" ) 。 上 默认 Lb 
一 deploy ~ mode DEPLOY_MODE 以 客户 器 借 式 启动 Driver ("elient 或 以 集群 模式 司 动 《melustar") 。 默认 以 
Client 模式 启动 
—— class CLASS_NAME 应 用 程序 的 主 类 (Java/Scala 程序 ) 
—— name NAME 应 用 程序 名 称 
—— jars JARS 六 逗号 分 隔 的 本 地 jar 包 列 表 ， 将 包含 在 Driver 和 Executor 节点 的 classpaths 中 
小 过 号 分 隔 的 maven 坐标 ， jar 包 将 包含 在 Driver 和 Executor 节点 的 classpaths 
—— packages 中 ， 将 自动 搜索 本 地 maven 仓库 、maven 中 央 仓 库 或 者 以 一 repositories 指定 的 其 
它 远 程 仓 库 。 坐 标的 格式 为 : groupld : artifactld : version 
—— exclude - packages 六 逗号 分 隔 的 " groupId: artifactId" 列表 ， 排 除 一 些 依赖 ， 用 于 解决 依赖 冲突 
—— repositories 六 逗号 分 隔 的 远程 仓库 列表 ， 用 于 查找 给 定 的 -- packages 的 maven 坐标 
—— py -files PY_FILES 义 豆 号 分 隔 的 zip、egg 或 . py 文件 ， 放 在 Python 应 用 程序 的 路 径 PYTHONPATH 
— files FILES 以 逗号 分 隔 的 文件 列表 ， 将 要 放 在 Executor 节点 中 的 目录 
一 conf PROP = VALUE 任意 Spark 配置 属性 
加 载 额 外 属性 的 文件 路 径 。 如 果 没 有 指定 ， 将 查找 conf/spark - defaults. conf 配 
—— properties — file FILE 5 
置 文件 
—— driver - memory MEM 设 定 Driver 内 存 (例如 1000 MB, 2GB) (默认 512 MB ) 


—— driver — java — options 设 定 Driver 额外 的 java 选项 
] Pp ] 
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( 续 ) 
参数 名 称 功 能 
—— driver ~ library - path 设 定 Driver 额外 的 库 路 径 
We es ， 设 证 Driver 额外 的 类 路 径 。 注 意 : 使 用 -- jars 增加 jars 包 会 自动 包含 在 类 路 
径 classpath 
一 executor - memory MEM 设 定 每 个 Executor 的 内 存 (例如 : 1000 MB, 2GB) (默认 1GB) 
一 help，-h 显示 此 帮助 消息 并 退出 
—— verbose, —y 打印 额外 的 debug 输出 


以 上 [options] 参数 列表 ， 完 全 与 spark - submit 应 用 程序 的 参数 一 样 ， 如 果 不 设置 
master 参数 ，Spark 应 用 程序 将 在 启动 Thrift Server 的 机 屁 中 以 local 方式 运行 ， 可 以 通过 ht- 
tp: A// 机 妖 名 : 4040 进行 监控 。 如 果 在 集群 中 运行 Thrift Server， 一定 要 配置 master、execu- 
tor -~ memory 等 参数 。 再 通过 hive - conf 来 指定 [thrift server options] 系列 参数 ， 因 为 参数 比 
较 多 ， 通 常 使 用 conf/hive - site. xml 进行 配置 。 

5. 退出 Thrift Server 

Thrift Server 启动 后 处 于 监听 状态 ， 可 以 执行 下 面 命 令 退 出 ThriftServer: 


root@ Master:/usr/local/ spark/ spark -1.6.3 -bin -hadoop2. 6/sbin# . /stop — thriftserver. sh 
stopping org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 


HiveThriftServer2 类 的 解析 


通过 7.2. 1 一 节 的 学 习 ， 我 们 输入 start - thriftserver. sh 命令 ，Spark SQL Thrift Server 启 
动 时 调用 org. apache. spark. deploy. SparkSubmit，SparkSubmit 向 服务 央 集 群 提交 一 个 class 为 
HiveThriftServer2 的 应 用 程序 ，HiveThriftServer2 类 是 一 个 Spark 应 用 程序 ， 也 是 main 方法 的 
入 口 类 ， 因 此 ， 很 有 必要 对 其 进行 解析 。 

下 面 是 HiveThriftServer2 的 UML 类 图 ， 如 图 7-3 所 示 。 


+listener: HiveThriftServer2Listener | 
+LOG 

+uiTab | 

+Hmain 展区 区 本 本 本 区 朴 区 汪 末 
+startWithContext() 


ExecutionInfo 
| 
| 


7-3 HiveThriftServer2UML 类 图 


:A Thrift Server 


伴生 对 象 object HiveThriftServer2 继承 至 Logging， 是 Spark SQL 中 连接 HiveServer2 的 主 
入 口 点 ， 启 动 SparkSQLContext 和 HiveThriftServer2thrift server 服务 。 伴 生 类 class HiveThrift- 
Server2 继承 至 HiveServer2 及 ReflectedCompositeService ， 其 中 HiveServer2 是 Hive 包 中 的 类 
org. apache. hive. service. server. | HiveServerServerOptionsProcessor ,HiveServer2 | 。 > 
下 面 是 主要 的 几 个 关键 点 。 
1，init 方法 


override def init( hiveConf: HiveConf) | 
val sparkSqlCliService = new SparkSQLCLIService(this ,hiveContext ) 
set SuperField( this, " cliService" ,sparkSqlCliService ) 
add Service( sparkSqlCliService) 


val thriftCliService =if(isHTTPTransportMode(hiveConf) ) | 
new ThriftHttpCLIService( sparkSqlCliService ) 
else | 
new ThriftBinaryCLIService(sparkSqlCliService ) 
| 
set SuperField(this,"thriftCLIService" ,thriftCliService ) 
add Service(thriftCliService ) 
initCompositeService( hiveConf ) 


| 


HiveThriftServer2 继承 了 Hive 的 HiveServer2 和 ReflectedCompositeService 两 个 类 ， 并 且 复 
写 了 init 方法 。 在 初始 化 〈HiveConf) 的 时 候 ， 会 添加 cliService 和 thriftCLIService 两 个 服 
务 ， 作 为 后 台 守 护 进 程 。 其 中 ，cliService 服务 是 SparkSQLCLIService 对 象 的 实例 ;thrift- 
CLIService 服务 在 实例 化 时 ， 会 根据 HiveConf 参数 进行 判断 ， 如 果 传 输 模式 是 HTTP， 就 使 
用 ThriftHttpCLIService 对 象 ， 否 则 使 用 ThriftBinaryCLIService 对 象 。ThriftHttpCLIService 和 
ThriftBinaryCLIService 都 是 ThriftCLIService 的 子 类 ， 无 论 是 哪个 ThriftCLIService 对 象 ， 都 传 
入 了 SparkSQLCLIService 的 引用 ，Thrift 只 是 一 个 封装 。 

在 添加 这 两 个 服务 之 后 ， 再 调用 initCompositeService 方法 ， 把 所 有 的 服务 启动 起 来 。 

2， 监听 器 

在 HiveThriftServer2 伴生 对 象 中 ， 有 一 个 listener 对 象 作 为 监听 器 ， 它 是 HiveThriftServ- 
er2Listener 类 的 实例 。listener 用 来 接收 远程 的 请 求 ， 向 SparkContext 注册 该 监听 器 ， 把 接收 
到 的 请 求 交 给 HiveThriftServer2 类 ， 再 通过 Spark SQL 去 执行 任务 。 

3. main 方法 入 口 

在 HiveThriftServer2 伴生 对 象 中 ， 还 有 main 函数 入 口 。 正 如 Thrift Server 启动 日 志 所 见 : 


Spark Command :/usr/lib/java/ jdk1. 8. 0_66/bin/java -cp 

/usr/local/ spark/ spark — 1.6.3 - bin - hadoop2. 6/ con{/ :/usr/local/ spark/spark — 1.6.3 - bin — ha- 
doop2. 6/lib/ spark - assembly — 1.6.0 — hadoop2. 6.0. jar:/usr/local/spark/spark — 1.6.3 - bin — ha- 
doop2. 6/lib/ datanucleus — api — jdo —3. 2. 6. jar:/usr/local/ spark/ spark -1.6.3 -bin -hadoop2. 6/lib/ 
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datanucleus — core — 3. 2. 10. jar:/usr/local/ spark/spark -1.6.3 -bin -hadoop2. 6/lib/ datanucleus — 
rdbms —3. 2. 9. jar:/usr/local/ hadoop/ hadoop - 2.7. 1/etc/hadoop/ -= Xms2G — Xmx2G 
org. apache. spark. deploy. SparkSubmit —— master spark://master:7077 —— class 


org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 spark - internal 


从 Spark Command 可 以 发 现 ， 启 动 Thrift Sever 时 ,实际 是 调用 SparkSubmit 来 提交 
HiveThriftServer2 类 的 ， 所 以 该 类 必须 要 有 main 方法 入 口 ， 用 来 创建 一 个 新 的 进程 。 

在 main 方法 中 主要 处 理 逻 辑 是 : 创建 HiveThriftServer2 实例 ， 以 及 创建 HiveThrift- 
Server2Listener 监 昕 髓 。 具 体 代码 如 下 : 


def main( args: Array[ String | ) | 
val optionsProcessor = new HiveServerServerOptionsProcessor( " HiveThriftServer2" ) 
if( | optionsProcessor. process( args ) ) | 


System. exit( —1) 


logInfo( " Starting SparkContext" ) 
SparkSQLEnv. init( ) 
ShutdownHookManager addShutdownHook | ( ) => 
SparkSQLEnv. stop( ) 
uiTab. foreach( _. detach( ) ) 
| 


try| 
val server = new HiveThriftServer2( SparkSQLEnv. hiveContext) 


server. init( SparkSQLEnv. hiveContext. hiveconf) 

server. start( ) 
logInfo( " HiveThriftServer2 started" ) 

listener = new HiveThriftServer2 Listener( server, SparkSQLEnv. hiveContext. conf) 
SparkSQLEnv. sparkContext. addSparkListener( listener) 
uiTab = if( SparkSQLEnv. sparkContext. getConf. getBoolean( " spark. ui. enabled" ,true) ) | 

Some( new ThriftServerTab( SparkSQLEnv. sparkContext) ) 
| else | 


None 


| 
//lf application was killed beforeHiveThriftServer2 start successfully then SparkSubmit 


//process can not exit ,so check whether ifSparkContext was stopped. 
if( SparkSQLEnv. sparkContext stopped. get( ) ) | 
logError( " SparkContext has stopped even if HiveServer2 has started ,so exit" ) 
System. exit( —1) 
| 


| catch | 
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case e: Exception => 
logError( " Error starting HiveThriftServer2" ,e) 
System. exit( —1) 


7 属 轴 Beeline 操作 


Hive 的 Beeline 是 第 三 方 Hive 框架 HiveServer2 提供 的 一 个 命令 行 工 具 ，Beeline 是 基于 
SQLLine CLI 的 JDBC 客户 端 。Beeline 工作 模式 分 为 本 地 般 入 模式 和 远程 模式 . 家 和 人 模式 情 
况 下 ，Beeline 返回 一 个 般 入 式 的 Hive 客户 端 (类 似 于 Hive CLI) ; 远程 模式 则 通过 Thrift 协 
议 与 单独 的 HiveServer2 进程 进行 连接 通信 。 

Spark 的 Beeline 是 Spark\bin 目录 下 的 一 个 应 用 程序 ， 通 过 在 spark - class 中 执行 org. 
apache. hive. beeline. Beeline 程序 ， 启 动 Beeline 的 JDBC 客户 端 。 当 Thrift Sever 已 经 启动 ， 
我 们 就 可 以 使 用 Beeline 来 测试 Spark SQL Thrift JDBCZODBC server 了 。 通 过 Beeline 命令 级 
端 , 可 以 像 在 Hive 命令 终端 一 样 ， 执 行 各 种 Hive 语法 的 SQL 语句 。 


Beeline 连接 方式 ) 


根据 Thrift Server 启动 时 的 传输 通道 模式 ，Beeline 的 连接 方式 也 不 同 。 分 别 对 应 为 HT- 
TP 和 Binary 两 种 不 同 的 模式 。 

1. 连接 到 Binary 模式 的 Thrift Server 

下 面 是 Binary 模式 下 具体 的 连接 示例 。 

1) 在 Spark 的 bin 目录 下 执行 beeline 命令 : 


root@ Master:/usr/local/ spark/ spark -1. 6. 3 -bin - hadoop2. 6# . /bin/ beeline 
Beeline version 1. 6. 0 by Apache Hive 


2) 在 Beeline 命令 终端 中 输入 连接 信息 : 


beeline > | connect jdbc:phive2 ://localhost:10000 
Connecting tojdbc :hive2 ://localhost:10000 


3 ) 在 Beeline 命令 终端 中 进行 Hive 的 身份 认证 。 
在 连接 Thrift Sever 时 ， 使 用 了 hive metastore， 所 以 还 需要 进行 Hive 身份 认证 。 我 们 输入 
Hive 中 配置 的 认证 用 户 名 : root， 密 码 直 接 按 【Enter】 键 即 可 。 下 面 是 具体 的 运行 信息 : 


Enter username forjdbc :hive2 ://localhost:10000 :root 
Enter password forjdbe: hive2 ://localhost:10000. 
16/04/30 19:45 :28 INFOjdbc. Utils:Supplied authorities :localhost:10000 
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16/04/30 19:45 :28 INFOjdbc. Utils: Resolved authority :localhost:10000 

16/04/30 19:45 :29 INFOjdbc. HiveConnection: Wil try to open client transport with JDBC Uri: jdbe: 
hive2 ://localhost: 10000 

Connected to:Spark SQL( version 1. 6.0) 

Driver: Spark Project Core( version 1. 6.0) 

Transaction isolation: TRANSACTION_REPEATABLE_READ 


当 Hive 身份 认证 通过 之 后 ， 提 示 我 们 已 经 正确 连接 到 Spark SQL。 
下 面 对 Hive 的 授权 做 简单 介绍 ，HiveServer2 支持 匿名 ( 非 授 权 ) 以 及 SASL、KER- 
BEROS、LDAP、 插 件 式 客户 授权 和 插件 式 授 权 模 式 ， 如 表 7-3 所 示 。 


表 7-3 HiveServer2 授权 配置 参数 说 明 


加 
泛 


说 明 


授权 模式 ， 默 认 NONE， 可 选 的 包括 NOSASL、KERBEROS 、LDAP、 
PAM 和 CUSTOM 等 授权 模式 
NONE: 无 身份 验证 检查 
LDAP: 基于 LDAP/AD 的 身份 认证 
hive. server2. authentication KERBEROS: Kerberos/ GSSAPI 认证 
CUSTOM. 自 定 义 身 份 验证 提供 程序 ( 使 用 hive. servet2. custom. 
authentication. class ) 
PAM: 可 插入 的 验证 模块 
NOSASL: Raw transport 


被 授权 的 用 户 . 
例如 :hive/ HiveServer2Host@ YOUR - REALM. COM 


hive. server2. authentication. kerberos. principal 


hive. server2. authentication. kerberos. keytab 用 户 证 书 文件 为 keytab ， 例如 : veteyhiveyconf/hive. keytab 


LDAP (Lightweight Directory Access Protocol) 服务 器 地 址 URL， 例 


ive. server2. sntication . url 
hive. server2. authentication. ldap. ur 如 ;ldap; //myserver: 389 


LDAP 的 baseDN 根 域 路 径 ， 


hive. serveI2. authentication. ldap. baseDN 
A 例如 :ou= People, dc = my - domain ,dc = com 


如 果 将 hive. server2. authentication 设置 成 CUSTOM， 则 需 设 置 
hive. server2. custom. authentication. class 指定 权限 认证 的 类 ， 这 个 类 需 
要 实现 

hive. server2. custom. authentication. class org. apache. hive. service. auth. PasswdAuthenticationProvider 接 口 ， 
HiveServer2 调用 其 Authenticate (user，passed) 认证 请 求 的 方法 ， 通 
过 Hadoop 的 org. apache. hadoop. conf. Configurable 类 获取 Hive 的 配置 
对 象 


可 以 在 hive 的 conf 目录 ， 对 hive - site. xml 进行 配置 : 


< property > 
< name > hive. server2. authentication </name > 
<value > NONE </value > // 配置 为 NONE, 这 里 不 进行 身份 验证 检查 


< description > 


Expects one of [ nosasl, none, ldap, kerberos, pam, custom |. 


Client authentication types. 


NONE. no authentication check// 无 身份 验证 检查 
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T 


LDAP: LDAP/AD based authentication// 基 于 LDAP/AD 身份 认证 
KERBEROS: Kerberos/GSSAPI authentication //Kerberos/GSSAPI 身份 认证 
CUSTOM: Custom authentication provider // 自 定义 认证 

( Use with property hive. server2. custom. authentication. class) > 
PAM: Pluggable authentication module // 可 插入 验证 模块 
NOSASL: Raw transport// 非 简单 安全 验证 


</description > 


T 


</property > 


如 果 使 用 上 面 的 配置 ， 重 启 Hive Metastore 服务 之 后 ， 那 么 Beeline 连接 到 Thrift Sever 就 
不 用 输入 用 户 名 和 和 密码， 直接 按 Enter 键 就 可 以 了 。 但 是 根据 集群 实际 情况 ， 可 能 会 遇 到 下 
面 这 种 错误 : 


org. apache. Hadoop. security. AccessControlException : Permission denied : 


Permission denied……: 
只 需要 在 Hadoop 的 配置 目录 下 ， 增 加 下 面 配置 即 可 ; 


< property > 
< name > dfs. permissions < /name > 
<value >false </value > 


</property > 


2. 连接 到 HTTP 模式 的 Thrift Server 
Beeline 使 用 HTTP 模式 连接 到 JDBCZODBC 服务 时 ， 连 接 URL 的 格式 如 下 : 


beeline > | connect jdbe: hive2:// < host > : < port >/ < database > ? hive. server2. transport. mode = 


http ;hive. server2. thrift. http. path =< http_endpoint > 


Beeline 连接 URL 的 格式 参数 ， 请 参阅 前 面 的 “ 表 7-1 使 用 HTTP 模式 的 参数 表 ”。 
下 面 是 HTTP 模式 下 具体 的 连接 示例 。 
1) 在 Spark 的 bin 目录 下 执行 Beeline 命令 : 


root@ Master:/usr/local/ spark/spark — 1. 6. 3 -bin - hadoop2. 6# . /bin/ beeline 
Beeline version 1. 6. 0 by Apache Hive 


2) 在 beeline 命令 终端 中 输入 连接 信息 : 


beeline > ! connect jdbe:hive2://localhost:10001/hive;transportMode = http ;httpPath = cliservice 
Connecting tojdbc :hive2 ://localhost:10001/hive;transportMode = http ;httpPath = cliservice 


3) 在 Beeline 命令 终端 中 进行 Hive 的 身份 认证 ， 


Enter username forjdbc :hive2 ://localhost:10001/hive ;transportMode = http ;httpPath = cliservice :root 
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Enter password forjdbc:hive2 ://localhost:10001/hive;transportMode = http; httpPath = cliservice: 
16/05/11 17:47:11 INFOjdbe. Utils:Supplied authorities :localhost:10001 

16/05/11 17:47:11 INFOjdbe. Utils: Resolved authority :localhost:10001 

Connected to:Spark SQL( version 1. 6.0) 

Driver: Spark Project Core( version 1. 6.0) 

Transaction isolation: TRANSACTION_REPEATABLE_READ 

0:jdbe: hive2://localhost:10001/hive > 


同样 在 进行 身份 认证 时 ,输入 用 户 名 : root， 输 入 密码 时 ， 直 接 按 Enter 键 即 可 。 之 后 
会 提示 正确 连接 到 Spark SQL。 


2 在 Beeline 中 进行 SQL 查询 操作 ) 


Beeline 与 Thrift Server 连接 成 功 之 后 ， 就 可 以 在 Beeline 命令 终端 中 执行 Hive 的 语法 了 ， 
最 终 的 SQL 查询 计算 是 由 Spark SQL 来 完成 的 ，SQL 的 查询 计算 效率 比 直 接 在 Hive 中 执行 
提高 了 几 个 数量 级 。 

下 面 演示 一 下 在 Beeline 中 进行 最 基本 的 SQL 查询 操作 。 

1) 查询 列 出 数据 库 


0:jdbc:hive2 ://localhost:10000 > show databases ; 


result 
十 十 一 一 十 
default | 
hive | 


2 rows selected( 1. 125 seconds) 


结果 为 查询 Hive 中 的 数据 库 ， 包 括 default 数据 库 、Hive 数据 库 。 
2) 使 用 某 个 数据 库 : 


0 :jdbe: hive2 ://localhost:10000 > use hive; 


SE 


result | 


十 一 一 一 一 一 一 一 一 一 十 一 一 十 


十 
No rows selected( 0. 789 seconds ) 


输入 use hive 命令 后 ， 使 用 相应 的 数据 库 。 
3) 列 出 数据 库 中 的 表 : 


0:jdbc:hive2 ://localhost:10000 > show tables ; 


十 十 十 一 一 十 
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tableName isTemporary 
十 十 一 一 :+ 
al false 
all false O) 
people false 
scores false 
scoresresult false 
userlogs false 
十 二 一 一 :+ 


6 rows selected(4. 893 seconds ) 


结果 为 查询 hive 数据 库 中 的 所 有 表 。 
4) 显示 表 的 建 表 信息 : 


0:jdbe :hive2://localhost:10000 > show create table people; 


result 


CREATE TABLE people ( 


' namé string, 


”age int) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ，, 
LINES TERMINATED BY \# 
STORED AS INPUTFORMAT 
' org. apache. hadoop. mapred. TextInputFormat 
OUTPUTFORMAT 
' org. apache. hadoop. hive. ql. io. HivelgnoreKeyTextOutputFormat 
LOCATION 
' hdfs://Master:9000/user/ hive/ warehouse/ hive. db/ peoplé 
TBLPROPERTIES( 
' COLUMN_STATS_ACCURATE = trué ， 


"numFiles 1, 


1 


totalSize 上 71 ， 
"transient_lastDdlTime + 1462785638 ) 


17 rows selected(0. 464 seconds ) 


0:jdbc:hive2 ://localhost:10000 > select * from people limit 10; 
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十 十 十 一 一 十 
name age 
十 十 十 一 一 十 
Lily 18 
Frank 30 
Jack 20 
Jason 50 
Dave 35 
Stephen 28 
Barton 2 
Bill 2 
十 十 十 一 一 十 


8 rows selected( 0. 593 seconds ) 


通过 上 面 演 示 ， 可 以 看 见 在 Beeline 中 很 方便 进行 SQL 查询 。 同 样 的 ， 在 Hive 和 Spark 
SQL 上 ，Spark SQL 会 快 很 多 。 由 此 可 见 ， 在 Spark 中 ，Spark SQL 负责 高 性 能 的 查询 计算 引 
擎 ，Hive 只 是 作为 数据 仓库 的 数据 存储 ， 查 询 计算 任务 交 给 Spark SQL 来 完成 。 

最 后 说 一 下 ， 用 户 可 以 使 用 【Ctl+C】 组 合 键 或 者 使 用 " 1q" 命令 退出 Beeline。 


7 < 于 通过 Web 控制 台 查 看 用 户 进 行 的 操作 


在 浏览 器 中 输入 http://master:4040， 可 以 查看 用 户 进 行 的 JDBCAODBC 操作 ， 如 图 7-4 
所 示 。 


spaik: 160 org.apache spark sqlhive thrift .application UI 
Jobs Stages Storage Environment Executors SQL | JDBCIODBC Server 


JDBC/ODBC Server 


Started at: 2016/05/11 18:26:56 
Time since start: 3 hours 9 minutes 50 seconds 


2 session(s) are online, running 0 SQL statement(s) 


User IP Session ID Start Time Finish Time Duration Total Execute 

root 127.0.0.1 220fd8c5-d655- C2016/05/11 2016/05/11 289 ms 0 
43c3-8727- 21:21:58 21:21:59 
19e103693d51 

root 127.0.0.1 Se62d624-4199- 2016/05/11 14 minutes 47 6 
41f1-a9bc- 21-21:59 Seconds 
cfdb114b7987 

root 192.168.1.49 gbcc2ei2-abb2- 。 2016/05/11 2016/05/11 319 ms 0 
42ae-8dce- 21:36:42 21:36:42 
2a7b2497ada0 

root 192.168.1.49 54d6666f-b679- 。” 2016/05/11 4seconds 309 ms 0 
42b6-8af6- 21:36:42 
8515993e1640 


[SQL Statistics 


Finish 


User JoblD GrouplD Start Time Time Duratioi Detail 
root 98596d70-92ba-44e4- 2016/05/11 2016/05/11 2 use hive | FINISHED = Parsed Logical Plan == +detals 
b63fdef5ddd2fea7 21:22:06 21:22:08 seconds 
425 ms 
root 59d724f7-03d1-4485- 2016/05/11 2016/05/11 84 ms FINISHED == Parsed Logical Plan == + details 


9132-9f2aca6c4219 21:22:14 21:22:14 


7-4 JDBC/ODBC Server 
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上 面 的 监控 网 页 就 是 HiveThriftServer2 应 用 程序 的 运行 情况 ， 在 Session Statistics 区 域 可 
以 查看 此 时 连接 的 客户 端 情况 ,例如 ， 有 哪些 客户 端 连接 了 Thrift Sever， 在 SQL Statistics 区 
域 可 以 查看 具体 执行 的 SQL 语句 情况 ,例如 use hive，Showtable 语句 。 
其 中 : 但 ) 
e application UI 处 显示 应 用 程序 名 org. apache. spark. sql. hive. thriftserver。 3 
e 在 Spark 的 Tab 项 (Jobs、 Stages 、Storage 、Environment 、 上 Executors 、SQL 、JDBCZOD- 
BC Server) 单 击 JDBCZODBC Server 栏目 ， 查 询 JDBCAODBC Server 服务 的 相关 信息 。 
e 在 Session Statistics 区 域 ， 查 询 客户 端 会 话 的 连接 。 
e 在 SQL Statistics 区 域 ， 查 询 执行 的 SQL 语句 。 


Thrift Server 应 用 示例 


本 节 讲 解 Spark Thrift Server 的 应 用 示例 : 在 Hive 数据 库 人 员 信 息 表 people 中 ， 查 询 统 
计 年 龄 大 于 30 岁 的 员工 信息 〈( 姓 名、 年 龄 ) 。 

访问 Hive 数据 库 表 数据 有 多 种 方式 : 

e 通过 Hive 提供 的 JDBC 接口 ， 直 接连 接 Hiveserver 访问 Hive 数据 。 例 如 可 以 使 用 Java 
代码 来 连接 Hive， 进 行 SQL 语句 查询 操作 。 

e 使 用 Spark Thrift Server 方式 ， 通 过 JAVA JDBC/ODBC 访问 Spark Thrift Server，Spark 
Thrift Server 访问 Spark SQL， 然 后 通过 Spark SQL 访问 Hive 数据 库 中 的 数据 。 

e 本 章节 使 用 Spark Thrift Server 方 式 访问 ， 相 关 的 环境 准备 如 下 : 

e。 Hive 数据 库 环 境 。 

。 Spark 集群 环境 。 

e 启动 hive -- service metastore 服务 。 

e 启动 Spark Thrift Server。 


2 示例 源 代码 | 


package com. dt. spark. SparkApps. sql; 


import java. sql. Connection; 

import java. sql. DriverManager; 
import java. sql. PreparedStatement; 
import java. sql. ResultSet; 

import java. sql. SQLException; 


/六 六 
* 实战 演示 Java 通过 JDBC 访问 Thrift Server, 再 访问 Spark SQL ,进而 访问 Hive, 这 是 企业 级 开 
发 中 最 为 常见 的 方式 


炒 


4 


public class SparkSQLJDBC2ThriftServer | 
public static void main( String[ | args) | 


String sql = " select name ,age from people where age >=?"; 


Connection conn = null; 


ResultSetresultSet = null; 


try| 


Class. forName( " org. apache. hive. jdbc. HiveDriver" ) ; 


conn = DriverManager. getConnection( 


"jdbe:hive2:// Master:10001/hive;transportMode = http ;httpPath = cliservice" , "root" ," " ); 


java. sql. Statement stmt = conn. createStatement( ) ; 


stmt. execute(" use hive" ) ; 


PreparedStatementpreparedStatement = conn. prepareStatement( sql ) ; 
preparedStatement. setInt(1 ,30 ) ; 


resultSet = preparedStatement. executeQuery( ) ; 


while( resultSet. next( ) ) | 


System. out. println( "name:" +resultSet. getString(1) +" ,age = 


+ resultSet. getString(2) ) ; 


| catch( Exception e) | 
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e. printStackTrace( ) ; 


|} finally| 
try| 


resultSet. close( ) ; 


conn. close( ) ; 


| catch( SQLException e) | 
e. printStackTrace( ) ; 


1 


7. 4.2 


关键 代码 行 解析 


下 面 对 本 示例 的 关键 代码 


进 


ek. 


体 


析 。 
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1) 首先 ， 加 载 HiveServer2 的 JDBC 驱动 : 
Class. forName( " org. apache. hive. jdbe. HiveDriver" ) ; 


在 使 用 Class. forName( ) 加 载 hiveserver2 的 驱动 org. apache. hive. jdbc. HiveDriver 时 ， 会 > 
执行 HiveDriver 中 的 静态 代码 段 ， 创建 一 个 HiveDriver 实例 ， 然 后 调用 DriverManag- 
er. registerDriver( ) 注册 。 

2) 建立 指定 驱动 的 URL 连接 : 


conn = DriverManager. getConnection( 


"jdbe:hive2:// Master:10001/hive;transportMode = http ;httpPath = cliservice" , "root" ," " ); 


e url: 驱动 连接 URL。 

e user: 是 授权 访问 的 用 户 名 。 

e password : 授权 访问 的 密码 。 

3) 连接 URL。 

QD 当 HiveServer2 使 用 HTTP 模式 运行 时 ，JDBC 连接 URL 格式 如 下 : 


jdbe:hive2:// <host > :<port >/ <db > ;transportMode = http;httpPath = < http_endpoint > 


其 中 ，< http_endpoint > 默认 值 是 : cliservice， 需 要 跟 hive - site. xml 中 的 配置 保持 一 
致 。 < port > 端口 的 默认 值 是 : 10001。 
@) 当 HiveServer2 使 用 Binary 模式 运行 时 ，JDBC 连接 URL 格式 如 下 : 


jdbe:hive2:// <host > :<port>/<db > 


其 中 ， <port > 端 口 的 默认 值 是 : 10000 。 
4) 动态 选 定数 据 库 。 


stmt. execute( "use hive" ) ; 


在 代码 中 ， 通 过 use DatabaseName 语句 即 可 实现 动态 选 定 数据 库 。 
5) 组 织 SQL 语句 。 


Stringsql = "select name ,age from people where age >=?"; 
PreparedStatementpreparedStatement = conn. prepareStatement( sql) ; 


preparedStatement. setInt(1 ,30 ) ; 


组 织 SQL 语句 : 从 people 表 中 查询 age 大 于 等 于 30 的 记录 。 这 种 写法 可 以 防范 SQL 注 
入 ,不 用 对 传人 的 数据 做 任何 过 滤 ， 而 如 果 使 用 普通 的 statement 实例 就 有 SQL 注入 风险 。 
而 且 PreparedStatement 实例 包含 已 编译 的 SQL 语句 ， 其 执行 速度 要 快 于 Statement 对 象 。 

6) 执行 SQL 语句 。 


resultSet = preparedStatement. executeQuery( ) ; 
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7) 遍历 查询 结果 对 象 。 


while( resultSet. next( ) ) | 


System. out. println( "name:" +resultSet. getString( 1) +" ,age =" +resultSet. getString(2) ) ; 


| 


8) 本 示例 并 不 需要 SparkContext? 
在 本 示例 中 ， 为 什么 不 需要 SparkContext 呢 ? 我 们 通常 用 Java 来 操作 Spark SQL， 肯 定 
有 类 似 下 面 的 代码 : 


SparkConf conf = new SparkConf( ). setMaster( "local" ). setAppName( "xxxx" ) ; 
JavaSparkContext sc = new JavaSparkContext( conf ) ; 
SQLContextsqlContext = new SQLContext( sc ) ; 


原因 是 : 我 们 只 是 把 SQL 查询 语句 指令 发 给 Thrift Server， 然 后 Thrift Server 把 SQL 查询 
语句 交 给 了 Spark SQL 处 理 ， 所 以 就 跟 普 通 的 Spark SQL 程序 不 一 样 。 


启动 集群 环境 
在 Hadoop 目录 下 启动 : start - dfs. sh 和 start -yarn. sh， 执 行 命令 : 


root@ Master:/usr/local/ hadoop/ hadoop -2. 7. 1/sbin# . /start — all sh 
2) 在 Spark 目录 下 执行 命令 : 
root@ Master:/usr/local/ spark/ spark — 1. 6.3 -bin -hadoop2. 6/sbin# . /start — all. sh 


3) 在 Spark 目录 下 启动 HistoryServer: 
root@ Master:/usr/local/ spark/ spark — 1. 6. 3 -bin -hadoop2. 6/sbin# . /start — history - server. sh 


4) 启动 Hive Metastore 服务 ， 命 令 如 下 : 


root@ Master:/usr/local/ spark/spark — 1. 6. 3 -bin — hadoop2. 6# hive —— service metastore®& 


启动 Thrift Sever 
2 以 HTTP 通道 模式 连接 Thrift Sever， 所 以 启动 Thrift Sever 时 ， 请 以 HTTP 模式 启 
动 ， 命 令 如 下 : 


root@ Master:/usr/local/ spark/ spark - 1.6.3 - bin - hadoop2. 6/sbin# . /start — thriftserver. sh —— 
master spark ://master:7077 —— hiveconf hive. server2. transport. mode = http — - hiveconf hive. serv- 
er2. thrift. http. path = cliservice 

starting org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 , logging to 

/usr/local/ spark/ spark — 1. 6.3 - bin - hadoop2. 6/logs/ spark — root — org. apache. spark. sql. hive. 
thriftserver. HiveThriftServer2 -1 — Master. out 


人: 放 AE 请 汉 Thrift Server 


3. 在 Hive 中 准备 数据 
为 了 运行 本 案例 ， 我 们 必须 在 Hive 数据 库 中 创建 一 个 名 为 people 的 表 ， 该 表 有 name、 
age 两 个 字段 ,存储 了 下 面 几 条 测试 记录 : 


0:jdbc:hive2 ://localhost:10000 > select * from people limit 10; © 
+ 
name age 

于 

Lily 18 

Frank 30 

Jack 20 

Jason 50 

Dave 35 

Stephen 28 

Barton wl 

Bi 2 
让 


8 rows selected( 0. 593 seconds) 


我 们 可 以 通过 下 面 的 方法 来 创建 测试 数据 。 
1) 首先 创建 一 个 名 为 people. txt 的 文本 文件 。 
执行 命令 : vi /mnt/test/people. txt， 文 件 内 容 如 下 : 


Lily ,18 
Frank ,30 
Jack ,20 
Jason ,50 
Dave ,35 
Stephen ,28 
Barton ,21 
Bill ,22 


2) 连接 Hive 数据 库 : 


hive > use hive; 
OK 
Time taken: 0. 041 seconds 


3) 创建 people 表 : 


hive > CREATE TABLE peoplé ( name string, ' age int)ROW FORMAT DELIMITED FIELDS TER- 
MINATED BY ，LINES TERMINATED BY \n; 

OK 

Time taken: 0. 257 seconds 
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4) 此 时 可 以 查看 一 下 people 表 的 描述 : 


hive > desc people; 


OK 
name string 
age int 


Time taken: 0. 727 seconds ,Fetched: 2 row(s) 


5) 往 pepole 表 中 装载 数据 : 


hive > load data localinpatH /mnt/test/ people. txt into table people; 
Loading data to table hive. people 

Table hive. people stats: [ numFiles = 1 ,totalSize =71 | 

OK 

Time taken: 0. 256 seconds 


或 者 使 用 下 面 更 简单 的 方式 插入 数据 : 


INSERT OVERWRITE TABLE people 
select * from( 
select Lily as name,18 as age union all 
select Frank ,30 union all 
select Jack ,20 union all 
select Jasou ,50 union all 
select Dave ,35 union all 
select Stepheu ,28 union all 
select Bartou ,21 union all 


select Bill ,22 
) as 


这 种 方法 不 需要 创建 测试 数据 文件 。 
6) 查询 pepole 表 ， 结 果 如 下 : 


hive > select * from people; 
OK 

Lily 18 

Frank 30 

Jack 20 

Jason 50 

Dave 35 

Stephen 28 

Barton 21 

Bill 22 

Time taken: 0. 056 seconds ,Fetched: 8 row(s) 


Thrift Server 


7 了 运行 结果 解析 


把 本 示例 的 源码 文件 在 IDE 中 打包 生成 JAR 包 ， 然 后 提交 到 集群 上 的 Diiver 机 器 上 执 >) 
行 ， 运 行 命令 如 下 ， 


root@ Master:/usr/local/ spark/ spark — 1. 6. 3 -bin — hadoop2. 6/sbin# 
/usr/local/ spark/spark -1.6.3 -bin -hadoop2. 6/ bin/ spark - submit —— class 
com. dt. spark. SparkApps. sql. SparkSQLJDBC2ThriftServer - — master spark://Master: 7077 / 
mnt/job/ Spark Apps20160504. jar 


执行 结果 如 下 : 


16/05/09 20:37:33 INFOjdbc. Utils: Supplied authorities: Master:10001 
16/05/09 20:37:33 INFOjdbc. Utils: Resolved authority: Master:10001 
name:Frank,age=30 

name :Jason ,age =50 


name:Dave,age =35 


因为 在 people 表 中 ， 我 们 只 生成 了 8 条 记录 ， 分 别 为 : 


Lily 18 
Frank 30 
Jack 20 
Jason S50 
Dave 35 
Stephen 28 
Barton 21 
Bill 22 


所 以 当 我 们 过 滤 age 大 于 等 于 30 的 记录 时 ， 只 有 : Frank、jJason 、Dave 三 条 记录 满足 条 
件 。 执 行 结果 符合 我 们 的 预期 。 


7/ 怕 忆 刘 Spark Web 控制 台 查看 运行 日 志 


程序 运行 完毕 ， 在 浏览 器 打开 : http://Master:8080， 就 可 以 通过 Spark Web 控制 台 查 看 
该 案例 的 详细 运行 日 志 情 况 ， 如 图 7-6 所 示 。 

在 上 图 的 Running Applications 区 域 ， 单 击 方 框 中 的 : org. apache. spark. sql. hive. thriftserver. 
HiveThriftServe2 ， 即 可 查看 详细 的 Jobs 信息 ， 如 图 7-7 所 示 。 
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Spak: ‘1s0 Spark Master at spark://192.168.1.133:7077 


URL: spark-//192.168.1.133:7077 

REST URL: spark://192.168.1.133:6066 (cluster mode) 
Alive Workers: 3 

Cores in use: 6 Total, 6 Used 

Memory in use: 6.0 GB Total, 6.0 GB Used 
Applications: 1 Running, 3 Completed 

Drivers: 0 Running, 0 Completed 


Status: ALIVE 
Workers 
Worker ld Address State Cores Memory 
Worker-20160512151806-192.168.1.49-50095 192.168.1.49-50095 ALIVE 2(2Used) 20GB(20GB Used) 
Worker-20160512151807-192.168.1.47-56241 192.168.1.47-56241 ALIVE 2(2Used) 20G6(20GB6 Used) 
Worker-20160512151807-192.168.1.48-52259 192.168.1.48:52259 ALIVE 2(2Used) 20GB(20GBUsed) 
Running Applications 
Memory 
per Submitted 
Application ID Cores Node Time User State Duration 
app- org.apache.spark.sql.hive.thriftserver.HiveThrifiServer2 |6 20GB 2016/05/12 root RUNNING 5.4 min 
20160512203826-| 20:38-26 
0003 (kill) 
Completed Applications 
Memory 
per Submitted 
Application ID Name Cores Node Time User State Duration 
app- org.apache.spark.sql.hive.thriftserver.HiveThrifiServer2 6 20GB 2016/05/12 root FINISHED 1.6h 
20160512190109- 19:01:09 
0002 
app- org.apache.spark.sql.hive thriftserver.HiveThriftServer2 6 2.0GB 2016/05/12 root FINISHED 3.2h 
20160512154604- 15:46:04 


图 7-6 案例 运行 日 志 


Spaik: a org.apache.spark.sql.hive.thrift... application UI 


pe——— 


Jobs | Stages Storage Environment Executors SQL JDBC/ODBC Server 


Spark Jobs (?) 


Total Uptime: 11 min 
Scheduling Mode: FIFO 
Completed Jobs: 1 


，Event Timeline 


Completed Jobs (1) 
Tasks (for all 
Stages: stages): 
Job ld (Job Group) Description Submitted Duration SucceededJTotal SucceedediTotal 
0 (3c21206d-e4bd- select name.age from people where age >= 30 2016/05/12 4s 11 EL 
49b1-97aa- run at AccessController java:-2 20:38:54 
75e0c8622396) 


图 7-7 案例 完成 的 Jobs 


本 章 小 结 


本 章 首 先 阐述 了 Thrift 的 发 展 和 基本 概念 ， 然 后 讲解 在 Spark SQL 中 Thrift Server 的 启动 
方式 ， 以 及 HiveThriftServer2 类 的 解析 ， 并 演示 了 如 何 通过 Beeline 来 操作 Thrift Sever， 最 后 
通过 一 个 Java 案例 来 演示 JDBC 下 操作 Thrift Sever。 通 过 本 章 内 容 ， 读 者 可 以 基本 掌握 
Thrift Server 的 应 用 。 


人 学: 让 请 芭 Spark SQL 综合 应 用 案例 


第 8 并 Spark SQL 综合 应 用 案例 


在 实际 生产 环境 中 ， 一 个 电子 商务 网 站 每 天 将 会 产生 海量 的 日 志 数据 。 本 章 从 实战 角度 
详细 阐述 两 个 Spark SQL 的 综合 应 用 案例 ， 在 电 商 网 站 日 志 多 维度 数据 分 析 案 例 中 实战 演示 
UV (Unique Visitor， 独 立 访客 数 ) 数据 、PV 数据 (Page View， 页 面 浏览 量 )、 用 户 跳 出 
率 、 新 用 户 注 册 比 例 、 热 门板 块 排名 等 分 析 统 计 操作 ; 在 电 商 网 站 搜索 排名 统计 案例 中 实战 
演示 搜索 平台 上 用 户 每 天 搜索 排名 数据 的 前 3 名 的 产品 的 操作 。 


用 汪 综 合 案例 实战 一 电 商 网 站 日 志 多 维度 数据 分 析 


在 实际 生产 环境 中 ,一 个 电子 商务 网 站 在 日 常 运行 过 程 中 每 天 都 要 产生 海量 的 日 志 信 
息 ， 这 些 日 志 信息 一 般 主 要 来 源 于 论坛 的 日 志 ， 网 站 操作 的 日 志 ， 移 动 APP 的 日 志 (iPhone 
或 Andriod 手机 ) 等 等 。 

衡量 网 站 日 志 信息 的 几 个 重要 参数 如 下 .: 

1) PV: 是 Page View 的 简写 ， 即 页 面 浏 览 量 或 点 击 量 ， 用 户 每 1 次 对 网 站 中 的 每 个 网 
页 访问 均 被 记录 1 次 ， 也 就 是 1 个 PV。 用 户 对 同一 页 面 的 多 次 访问 ,访问 量 累 计 ， 也 就 是 
统计 为 多 个 PV。 

2) UV: 是 Unique Visitor 的 简写 ， 即 独立 访客 数 ， 是 指 通过 网 络 访问 、 浏 览 某 个 网 页 的 
自然 人 人。 比如， 在 一 台电 脑 上 ，A 打开 了 某 网 站 ,注册 了 一 个 会 员 ，B 通过 该 电脑 注册 了 另 一 
个 会 员 。 由 于 A、B 两 个 人 使 用 的 是 同一 台 计 算 机 ， 那 么 他 们 的 了 P 地 址 是 一 样 的 ， 网 站 日 志 记 
录 器 记录 到 同一 个 卫 地 址 的 登录 信息 。 但 是 ， 具 有 统计 分 析 功 能 的 网 站 统计 系统 ， 可 以 根据 
其 他 条 件 判断 出 实际 使 用 的 用 户 数量 ， 返 回 给 网 站 建设 者 真实 、 可 信和 准确 的 信息 ， 也 就 是 两 个 
UV。 比 如 ， 通 过 注册 的 用 户 ， 甚 至 可 以 区 分 出 网 吧 、 机 房 等 共享 一 个 全 地 址 的 不 同 计算 机 等 。 

IP 地 址 是 一 个 反映 网 络 虚 拟 地 址 对 象 的 概念 ，UV 是 一 个 反映 实际 使 用 者 的 概念 ， 每 个 
UV 相对 于 每 个 IP， 更 加 准确 地 对 应 一 个 实际 的 浏览 者 。 使 用 UV 作为 统计 量 ， 可 以 更 加 准 
确 的 了 解 单位 时 间 内 实际 上 有 多 少 个 访问 者 来 到 了 相应 的 页 面 。 

对 于 网 站 的 PV 和 UV 的 统计 ， 可 使 用 第 三 方 统计 工具 进行 统计 ， 将 第 三 方 统计 工具 的 
代码 嵌入 至 网 站 中 统计 PV 和 UV 的 页 面 ， 然 后 登录 统计 工具 后 台 查 询 网 站 的 PV 和 UV 量 。 

3) BR: 是 Bounce Rate 的 简写 ， 即 用 户 跳 出 率 ， 是 评价 一 个 网 站 性 能 的 重要 指标 ， 跳 
出 率 高 ， 说 明 网 站 用 户 体验 做 得 不 好 ， 用 户 进 去 就 跳出 去 了 ， 反 之 如 果 跳 出 率 较 低 ， 说 明 网 
站 用 户 体验 做 得 不 错 ， 用 户 能 够 找到 自己 需要 的 内 容 ， 而 且 以 后 他 可 能 还 会 再 来 光顾 你 的 网 
站 ， 提 高 了 用 户 黏 性 ， 慢 慢 地 可 以 积累 大 量 的 网 站 用 户 。 

4) 板块 热度 排名 : 是 指 在 一 定时 间 内 用 户 对 网 站 各 板块 的 浏览 量 ， 该 参数 对 于 网 站 总 
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体 板 块 的 布局 是 至 关 重要 的 。 

5) 用 户 的 注册 率 : 是 指 在 一 定时 间 内 匿名 浏览 该 网 站 的 用 户 实际 注册 为 正式 用 户 的 比 
率 ， 一 个 论坛 最 好 使 用 活跃 用 户 转 化 率 ， 一 个 网 上 商城 最 好 使 用 付费 用 户 转化 率 ， 一 个 交友 
网 站 可 以 用 注册 用 户 转化 率 。 


二 了 罗 数据 准备 


通常 情况 下 ， 对 日 志 的 处 理 采用 定时 任务 ， 在 Linux 环境 下 ， 将 对 日 志 处 理 的 指令 采用 
shell 进行 封装 ， 通 过 调度 器 进行 定时 调度 ， 常 用 的 调度 器 有 crontab，ariflow，oozie 等 ， 处 
理 的 结果 最 终 放 到 数据 库 中 。 注 意 : 调度 器 要 安装 在 一 台 安 装 了 Spark 客户 端的 机 器 上 。 


9 数据 说 明 


以 下 的 日 志 数 据 来 源 是 用 程序 模仿 网 站 日 志 生 成 的 。 主 要 的 字段 如 下 : 

e 日 期 riqi， 格式 为 yyyy -mm -dd， 是 指 日 志 记录 生成 的 日 期 。 

e 时 间 戳 ，shijian ， 是 指 日 期 记录 生成 的 时 间 。 

e 用 户 id，userID， 浏 览 网 页 的 用 户 ， 其 中 Nul 为 匿名 用 户 。 

e 页 面 id，pageID， 网 站 页 面 的 了 D。 

e 板块 名 称 ，channel， 网 站 板块 的 名 称 。 

e 操作 ，action ， 表 明 用 户 是 在 浏览 网 页 ， 还 是 在 注册 用 户 。 

生成 的 文件 名 为 userLogs. txt， 纯 文本 文件 ， 各 字段 之 间 用 TAB 分 割 ， 每 行 一 条 记录 。 
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二 本 数据 创建 


为 了 读者 测试 方便 ， 本 节 将 分 别 采 用 Java 和 Scala 语言 编写 程序 实现 日 志 数 据 生成 。 
(1) Java 语言 生成 日 志 数 据 


| 


import java. io. FileNotFoundException ; 
import java. io. FileOutputStream ; 
import java. io. OQutputStream Writer; 
import java. io. PrintWriter; 
import java. text. SimpleDateFormat; 
import java. util. Calendar; 
import java. util. Date; 
import java. util. Random ; 
public class SparkSQLDataManally | 
// 定 义 网 站 具体 的 板块 名 称 
static String| ] channelNames =new String[ ] | 
" Spark"," Scala" ," Kafka" ,"Flink" ," Hadoop" ,"Storm" ,"”Hive" ," Impala", 
HBase" ,"ML" } ; 
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// 定 义 用 户 在 网 页 的 操作 

static String[ ] actionNames = new String[ ] {" View" ," Register" | ; 

static String riqiFormated; 

public static void main( String | ] args) | > 

/ 米 米 

* 通过 传递 进来 的 第 一 个 参数 生成 指定 大 小 规模 的 数据 ,默认 为 5000 行 ; 
*# 第 二 个 参数 指定 生成 的 日 志 数据 文件 存放 的 位 置 
*/ 


long numberltems = 5000; 
String path = "."; 

if (args. length > 0) | 

numberltems = Integer. valueOf( args[ 0 | ) ; 

path = args[ 1 ]; 
| 
System. out. println( " The total user log number is : 
// 日 志 时 间 的 生成 


riqiFormated = riqi( ) ; 


" +numberltems + " 。" ); 


T 


userlogs( numberltems ,path ) ; 

| 
private static void userlogs( long numberItems ,String path) | 

Random random = new Random( ) ; 

String BufferuserLogBuffer = new StringBuffer("") ; 
int[ ] unregisteredUsers =new int| ] 11,2,3,4,5,6,7,8! 
for(i< - 1 tonumberltems. toInt) 

| 
var timestamp = new Date( ). getTime( ) 
var userlD =0L 
var pagelD =0L 

// 随 机 生成 的 用 户 ID ,其 中 userID 为 null 的 是 新 用 户 

if unregisteredUsers| random. nextInt(8) ] ==1) | 
userlD =0L 


| else | 
userID = (long) random. nextInt( (int) numberltems) 
| 
A/ 随机 生成 的 页 面 了 D 
pagelD = random. nextInt( (int) numberItems ) ; 
// 随 机 生成 Channel 
String channel = channelNames[ random. nextInt( 10) ] ; 
// 随 机 生成 action 行为 
String action = actionNames[ random. nextInt(2) ] ; 
userLogBuffer. append( riqiFormated ). append(" \t" ) 
. append( timestamp). append(" \t" ) 
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. append( userID). append(" \t" ) 
. append( pagelD). append( " \t" ) 
. append( channel). append( " \t" ) 
. append( action). append(" \n" ) ; 
| 
PrintWriterprintW riter = null; 
try | 
printWriter = new PrintWriter( new OutputStream Writer( 
new FileOutputStream( path + " userLog. log" ) ) ) ; 
printW riter. write( userLogBuffer. toString( ) ) ; 
| catch (Exception e) | 
e. printStackTrace( ) ; 
| finally | 
printW riter. close( ) ; 
| 
| 
private static String riqi( ) | 
SimpleDateFormat date = new SimpleDateFormat( "yyyy ~ MM -dd" ) ; 
Calendar cal = Calendar. getInstance( ) ; 
cal setTime(new Date( ) ) ; 
cal. add(Calendar. DATE, -1) ; 
Date yesterday = cal. getTime( ) ; 
return date. format(riqi) ; 
| 
| 


(2) Scala 语言 生成 日 志 数据 


import java. io. | FileOutputStream ,OutputStreamWriter, PrintWriter | 
import java. util. Date 
import org. joda. time. DateTime 


import scala. util. Random 


/六 六 
* Created by qian on 2016/4/16. 
* 网 站 日 志 自 动 生成 右 代 码 
* 日 志 数 据 格式 : 
* riqi: 日 期 ,格式 为 yyyy - MM - dd, 日 志 的 生成 时 间 
* timestamp: 时 间 惟 
* userID :用 户 ID 
x* pageID :页 面 ID 
*# chanel :板块 名 称 
x* action :浏览 (View) 或 注册 ( Register) 
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*/ 
object SparkSQLDataManually | 
// 网 站 的 具体 频道 
val channelNames = Array( " spark" ," scala" ," kafka" ," Flink" ,"hadoop" ," Storm" ," Hive" ," Im- > 
pala" ," HBase" ," ML" ) 
A/ 用 户 的 操作 
val actionNames = Array( " View" ," Register" ) 


var riqiFormated = "" 


def main (args: Array[ String] ) | 
// 生 成 日 志 的 数量 ,命令 行 的 第 一 个 参数 确定 生成 日 志 的 行 数 ,默认 为 500 行 


var numberltems: Int = 500 


UL 


var path = 
if( args. length >0) 

| 
numberltems = args( 0). toInt 
path = args( 1) 

| 
println(" User log number is : 

// 日 志 时 间 生 成 
riqiFormated = DateTime. now. minusDays( 1). toString( "yyyy ~ MM -dd") 


" +numberltems) 


userlogs ( numberltems ,path ) 


| 
// 生 成 网 站 日 志 的 函数 ,传人 参数 有 :生成 日 志 的 行 数 和 日 志 的 存放 路 径 


def userlogs( numberltems :Long, path:String) : Unit = | 


var userLogBuffer = new StringBuffer("" ) 
val random = new Random( ) 
A/ 随机 生成 的 页 面 了 D 
pagelD = random. nextInt( numberltems. toInt) 
// 随 机 生成 的 ChannelID 
val channel = channel Names( random. nextInt( 10) ) 
// 随 机 生成 Action 行为 
val action = actionNames( random. nextInt(2) ) 
userLogBuffer. append( yesterdayFormated ). append(" \t" ) 
. append(timestamp ). append(" \t" ) 
. append(userID ). append(" \t" ) 
. append( pagelD). append("\t" ) 
. append( channel). append(" \t") 
. append( action). append(" \n") 
| 


val printWriter =new PrintWriter( new OutputStreamWriter( new FileOutputStream(path + "userLog. log" ) ) ) 
try| 


printW riter. write(userLogBuffer. toString( ) ) 


| 


catch | 


case e:Exception = > println(e. toString ) ; 


| 
finally | 


printW riter. close( ) ; 


| 


| 


在 Intellij IDEA 集成 开发 环境 中 ， 输 入 快捷 键 ALT + Shift + F10， 弹 出 Run 
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行 页 面 ， 在 
program arguments 项 输入 产生 的 日 志 条 数 和 日 志文 件 的 存放 位 置 ， 点 击 Run 按钮 运行 程序 。 
程序 运行 后 ， 生 成 数据 的 格式 如 下 : 


运 
运 


日 期 时 间 惟 j 户 站 页 面世 板块 名 称 浏览 或 注册 
2016 -04 -24 1461578786916 38392 54157 Impala View 
2016 -04 -24 1461578786916 651242 260613 Spark View 
2016 -04 -24 1461578786916 437591 720600 Kafka Register 
2016 -04 -24 1461578786916 0 699510 Spark View 
2016 -04 -24 1461578786916 225827 317728 Storm Register 
2016 -04 -24 1461578786916 415604 376904 Flink Register 
2016 -04 -24 1461578786916 939459 389381] Spark Register 
2016 -04 -24 1461578786916 50944 920496 Spark Register 
2016 -04 -24 1461578786916 77695 192414 HBase Register 
2016 -04 -24 1461578786916 0 489529 ML View 
如 果 生 成 的 数据 量 偏 大 ， 比 如 超过 100 万 行 ， 即 在 运行 的 配置 参数 页 面 中 设置 program 


arguments 配置 参数 中 输入 1000000 c:\， 如 下 图 8-1 所 示 。 


Run - SparkSQLDataManalfy 


十 一 团 旧 六 个 所 癌 呈 


Name: | SparkSQLDataManaly 


are [DD Single instance only 


TY BApplication 


PF Defaults 


SparkSQLDataManally 


Main class: 


VM options: 


Cr code covera 


ge | Logs 


SparkSQLDataManaly 


Program arguments: 


1000000 cn 


EA\downloads\shizhan 


Environment variables: 


Use classpath of module: | C3 shizhan 


JRE: Default (1.8 - SDK of 'shizhan' module) 


口 Enable capturing form snapshots 


~ Before launch: Make, Activate tool window 
十 一 全 二 
4 Make 


口 Show this page Activate tool window 


|_Help 


点 击 Run 按钮 运行 程序 ， 将 报错 : 


User log number is :10000000 


上 Exception in thread " main" java. lang. OutOfMemoryError:Java heap space 


出 错 的 原因 是 Java 堆 空 间 不 足 ， 产 生 溢出 ， 处 理 方法 是 手动 调整 JVM 的 参数 。 在 运行 
的 配置 参数 页 面 中 将 VM options 设置 参数 -verbose: gc -Xms4G -Xmx4G - Xss2G， 如 下 
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图 8-2 所 示 。 其 含义 为 : -verbose: gc， 在 虚拟 机 发 生 GC 垃圾 回收 时 在 输出 设备 显示 信 


自 
- Xss2G， 每 个 线程 的 堆栈 大 小 为 2GB。 


息 ; -Xmx4G，JVM 局 动 初始 化 堆 大 小 为 4GB，Xmx4G，JVM 最 大 的 堆 大 小 为 4GB; 


DN Run - SparkSQLDataManually 


Environment variables: 


Use classpath of module: 


JRE: 


x 

十 一 国 同 多 个 3 了 3 口 凡 Name: | SparkSQLDataManually | ] Share [|) Single instance only 
Ppt en Jer code coverage | toos| 

mllib0402 

mllib0404 Main class: sql.SparkSQLDataManually 

Dibo405 YM options: -verbose:gc -Xms4G -Xmx4G -Xss2G al 

SparkSQLDataManually 

mllib0403 Program arguments: 10000000 d:\ 希 
> FDefaults Working directory: Ci\Users\qian\IdeaProjects\untitled “| 目 


untitled | "| 


Default (1.8 - SDK of 'untitled' module) | | Ee 


[DD) Enable capturing form snapshots 


™ Before launch: Make, Activate tool window 


EE fae) Tey) Ge 


图 8-2 设置 VM 虚拟 机 参数 


点 击 Run 按钮 运行 程序 即 可 生成 测试 用 数据 。 


:如 时 :时 数据 导入 


本 节 将 生成 模拟 日 志 数 据 ， 记录 行 数 为 100 万 行 ， 日 志 大 小 约 为 500 MB ， 然 后 我 们 需 
将 模拟 日 志 数据 导入 到 Hive 中 ， 数 据 导 入 Hive 的 三 种 不 同方 式 : 

。 在 Hive 中 操作 加 载 数据 库 表 userLogs 的 数据 。 

e 在 Spark Shell 中 使 用 sqlContext 操作 加 载 数据 到 Hive 的 表 userLogs 中 。 

。 使 用 spark - sql 应 用 工具 将 数据 导入 hive 的 表 userLogs。 

(1) 方式 一 : 在 Hive 中 操作 加 载 数 据 库 表 userLogs 的 数据 

第 一 步 : 将 userLog. log 文件 复制 到 hadoop 集群 的 本 地 机 器 的 /home/hadoop/ 目 录 ; 

第 二 步 : 通过 Hive 将 日 志 数 据 导入 到 Hive 数据 仓库 中 。 


1) 启动 Hive MetaStore。 
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[ hadoop@ master ~ | $hive —— service metastore& 


[1] 4186 


2) 启动 hive。 


[ hadoop@ master ~ | $hive 


3) 在 hive 表 userLogs 中 加 载 测 试 数据 。 

e show databases: 查询 hive 数据 库 。 

e use website: 使 用 website 数据 库 。 

e descuserLogs: 查看 userLogs 表 结 构 信 息 。 

® load data local inpatH /home/hadoop/userLog. log into table userLogs: 加 载 本 地 数据 文件 
到 hive 数据 库 userLogs 表 中 。 

® select count( * ) from userLogs: 查询 数据 库 表 userLogs 的 记录 行 数 。 

以 下 为 相应 的 代码 。 

Q 在 Hive 中 查询 数据 库 。 


hive > show databases ; 
OK 

default 

website 


Time taken :1. 249 seconds ,Fetched:2 row(s) 


@) 输入 use website 命令 ， 使 用 website 数据 库 。 


hive > use website ; 
OK 
Time taken :0. 029 seconds 


@ 在 website 数据 库 中 创建 表 userLogs : 


hive > create table userLogs (riqi string, shijian bigInt,userID bigImt,pageIDbigInt, channel string ,ac- 
tionString) row format delimited fields terminated by \t lines terminated by \n ; 

OK 

Time taken :0. 539 seconds 


由 查询 表 userlogs 的 表 结 构 。 


hive > desc userLogs; 


OK 
riqi string 
shijian bigint 


userid bigint 
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pageidbigint 

channel string 

action string 

Time taken:0. 088 seconds ,Fetched:6 row(s) > 


(3) 加 载 本 地 数据 文件 到 userlogs 表 。 


hive > load data local inpath /home/hadoop/ userLog. log into table userLogs; 
Loading data to table website. userlogs /加 载 数据 到 website userlogs 表 
Table website. userlogs stats : | numFiles = 1 ,totalSize =51582540 ] 

OK 

Time taken :0. 867 seconds 


(@ 查询 userlogs 表 的 记录 数 。 


hive > select count( * ) from userLogs; 
Total MapReduce CPU Time Spent:0 msec 
OK 

1000000 

Time taken:3. 181 seconds ,Fetched:1 row(s) 


(2) 方式 二 : 在 Spark Shell 中 使 用 sqlContext 操作 加 载 数据 到 Hive 的 表 userLogs 中 。 
1) 启动 sparkShell。 


Last login: Tue Apr 26 05 :49 :24 2016 from 60. 216. 201. 197 
[ hadoop@ master ~ | $spark — shell —— master = spark://master:7077 
Welcome to 

ED nk, 2 

VAN/ 


人 国人 全 全 全 VersIOiRRG 


pe 


4 


Using Scala version 2. 10.5 (Java HotSpot( TM) 64 - Bit Server VM ,Java 1. 8.0_73) 


16/04/26 05 :51:56 INFO repl. SparkILoop: Created sql context (with Hive support).. 


SQL context available as sqlContext. 


日 志 中 显示 “Created sql context (with Hive support)”， 表 明 sqlContext 已 经 默认 支持 
Hive。Spark 中 的 日 志 级 别 对 应 于 log4j 的 日 志 级 别 ， 优 先 级 从 高 到 低 依次 为 : OFF、FATAL、 
ERROR、WARN 、INFO、DEBUG 、TRACE 、ALL。 为 方便 查看 数据 结果 ， 这 里 设置 日 志 级 
别 为 “WARN”， 简 化 Spark 的 日 志 输 出 : 
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sc. setLogLevel(" WARN" ) 


2) 在 Spark Shell 导入 数据 。 


® sqlContext. 
® sqlContext. 
® sqlContext. 
® sqlContext. 
® sqlContext. 


sql( "show databases" ). show: 查询 数据 库 。 

sql("use website" ) : 使 用 website 数据 库 。 

sql( "show tables" ). show: 查询 数据 库 中 的 表 。 

sql(" drop table userLogs" ) : 删 掉 数 据 库 中 表 userLogs。 

sql( "load data local inpath /home/ hadoop/userLog. log into table userLogs" ): 


加 载 本 地 数据 文件 到 数据 库 表 userLogs 中 。 


® sqlContext. 


sql( "select count( * ) from userLogs" ). show: 查询 数据 库 表 userLogs 的 记 


scala > sqlContext. sql( " show databases" ). show; 


| resultl 


| default| 


| websitel 


scala > sqlContext. sql(" use website" ) ; 


res2 :org. apache. spark. sql. DataFrame = [ result:string | 


scala > sqlContext. sql( "show tables" ). show; 


ltableName|isTemporary| 


userlogs| falsel 


scala > sqlContext. sql( " drop table userLogs" ) 


scala > sqlContext. sql ( " create table userLogs (riqi string, shijian bigInt, userID biglInt, pagelDbigInt, 


channel string,action String) row format delimited fields terminated by \t lines terminated by \W "); 


scala > sqlContext. sql( "load data local inpath /home/hadoop/ userLog. log into table userLogs" ); 


scala > sqlContext. sql( "select count( * ) from userLogs" ). show; 


_c0| 


110000001 


(3) 方式 三 


: 使 用 Spark - Sql 应 用 工具 将 数据 导入 hive 的 表 userLogs。 通 过 Spark SQL， 


将 数据 导入 到 hive 数据 仓库 中 
e spark - sql: 启动 spark - sql 应用， 以 下 操作 在 spark - sql 中 执行 。 


通 
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show databases: 查询 数据 库 。 

use website: 使 用 数据 库 website。 

show tables: 查询 数据 库 表 。 

drop table userLogs: 删除 数据 表 userLogs。 > 
create table userLogs: 创建 数据 库 表 userLogs。 

load data local inpatH /home/hadoop/userLog. log into table userLogs: 加 载 本 地 文件 到 数 

据 库 表 userLogs。 

select count( * ) from userLogs: 查询 数据 库 表 userLogs 的 记录 数 。 


[ hadoop@ master ~ | $spark - sql —— master = spark://master:7077 

SET spark. sql. hive. version =1.2.1 

SET spark. sql. hive. version =1.2.1 

spark — sql > show databases; 

default 

website 

Time taken:4. 237 seconds, Fetched 2 row(s) 

16/04/26 06:21:08 INFO CliDriver: Time taken:4. 237 seconds, Fetched 2 row(s) 
spark — sql > use website; 

Time taken :0. 139 seconds 

16/04/26 06:22.24 INFO CliDriver: Time taken:0. 139 seconds 

spark — sql > show tables; 

userlogs false 

Time taken:0. 636 seconds, Fetched 1 row(s) 

16/04/26 06:23:17 INFO CliDriver: Time taken:0. 636 seconds, Fetched 1 row(s) 
spark — sql > drop table userLogs; 

Time taken:0. 771 seconds 

16/04/26 06:24:07 INFO CliDriver: Time taken:0. 771 seconds 

spark — sql > create table userLogs (riqi string, shijian bigInt, userID bigInt, pageIDbigInt, channel 
string, action String) row format delimited fields terminated by \t lines terminated by \a ; 
Time taken :0. 499 seconds 

16/04/26 06 :25 :40 INFO CliDriver: Time taken :0. 499 seconds 

spark — sql > load data local inpatH /home/hadoop/ userLog. log into table userLogs; 
Time taken :0. 963 seconds 

16/04/26 06:26:34 INFO CliDriver: Time taken:0. 963 seconds 

spark — sql > select count( * ) from userLogs; 

1000000 

Time taken:4. 479 seconds ,Fetched 1 row(s) 

16/04/26 06:27:14 INFO CliDriver: Time taken:4. 479 seconds, Fetched 1 row(s) 
spark — sql > 


过 执行 上 述 代码 ， 可 查询 验证 表 userlogs 中 有 1000000 条 记录 。 
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数据 测试 和 处 理 


在 上 一 节 中 已 经 演示 了 将 测试 数据 采用 不 同 的 方式 导入 到 Hive 数据 仓库 中 ， 在 本 节 中 
所 有 的 数据 处 理 操 作 均 在 Spark SQL 环境 下 实现 。 

1. 统计 UV 数据 

UV 是 指 一 个 页 面 被 多 少 用 户 访 问 过 ， 一 个 用 户 多 次 访问 同一 页 面 为 1 个 UV。 

下 面 的 代码 显示 了 ， 针 对 某 天 (2016 年 4 月 24 日 ) 浏览 网 页 的 用 户 ，UV 数 最 多 的 10 
个 用 户 的 用 户 ID 和 UV 数 : 


spark — sql > select pageID ,count( distinct userID ) UV from userLogs where action £2 View and riqi = 
"2016 -04 -24 group by pageID order by UV desc limit 10; 
7 /第 一 列 含 义 是 页 面 古 ; 第 二 列 含义 是 唯一 不 重复 用 户 ID 的 UV 访问 累计 总 数 


973122 
292220 
212271 
161650 
511705 
303446 
458256 
280080 
492301 
18050 
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Time taken:6. 364 seconds ,Fetched 10 row(s) 
16/04/27 05 :50:55 INFOCliDriver: Time taken:6. 364 seconds, Fetched 10 row(s) 


spark — sql > 


2. 统计 PV 数据 
用 户 每 1 次 对 网 站 中 的 某 个 网 页 的 访问 均 被 记录 1 次 ， 也 就 是 1 个 PY。 用户 对 同一 页 


面 的 多 次 访问 ， 访 问 量 累 计 ， 也 就 


是 统计 为 多 个 PV。 


下 面 的 代码 为 ， 在 某 天 (2016 年 4 月 24 日 )， 网 页 浏览 次 数 (PV) 统计 量 最 多 的 前 10 


个 排名 。 


select riqi ,pageID ,pv from (select riqi, pagelD, count( * ) pv from userLogs where ation £ View and 


riqi 2 2016 -04 -24 group by riqi,pagelD) subquery order by pv desc limit 10; 


2016 -04 -24 973122 
2016 -04 -24 292220 
2016 -04 -24 842569 
2016 -04 -24 315316 
2016 -04 -24 973344 
2016 -04 -24 492301 
2016 -04 -24 140524 


2016 -04 -24 224728 


有 
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2016 -04 -24 1127 0 

2016 -04 -24 511705 6 

Time taken :8. 842 seconds ,Fetched 10 row(s) 

16/04/27 06:39:23 INFO CliDriver: Time taken:8. 842 seconds, Fetched 10 row(s) > 
spark — sql > 


3. 用 户 跳 出 率 统计 

用 户 跳 出 率 是 分 析 网 站 性 能 的 重要 指标 ， 是 指 用 户 只 访问 了 入 口 页 面 (例如 网 站 首页 ) 
就 离开 的 访问 量 与 所 产生 总 访问 量 的 百分比 。 本 节 用 户 跳出 章 计算 方法 为 ， 只 浏览 了 一 次 网 
站 的 用 户 与 浏览 网 站 的 总 用 户 数 的 比 。 下 面 的 代码 为 先 计算 某 天 (2016 年 4 月 24 日 ) 浏览 
网 站 的 总 用 户 数 。 


scala > val allUser = sqlContext. sql( " select count( distinctuserID ) from userLogs where Ation £ View 
and riqi 2016 -04 -24 " ). collect; 
allUser: Array[ org. apache. spark. sql. Row | = Array( [ 354685 | ) 


再 计算 只 浏览 了 一 次 网 站 的 用 户 数 。 


scala > val jumpUser = sqlContext. sql ( " select count( * ) from (select count( * ) totalNumber from 
userLogs where Ation 上 View and riqi 上 2016 -04 -24 group by userID having totalNumber = 
1) target " ). collect; 

jumpUser: Array| org. apache. spark. sql. Row | = Array( [282778 ] ) 


最 后 ， 计 算出 用 户 的 跳出 率 。 


scala > valjumpRate = jumpUser(0 ). get(0).toStrng. toDouble/allUser( 0). get(0). toString. toDou- 
ble; 
jumpRate: Double =0. 7972651789616139 


过 将 Double 类 型 转换 为 BigDecimal 类 型 可 以 计算 更 高 精度 的 用 户 跳 出 率 . 


同 


scala > BigDecimal. valueOf( jumpUser(0). get(0). toString. toDouble )/BigDecimal. valueOf ( allUser 
(0). get(0). toString. toDouble) ; 
res8 :scala. math. BigDecimal = 0. 7972651789616138263529610781397578 


当然 ， 在 实际 环境 中 ， 肯 和 定 要 针对 往往 某 个 模块 或 某 个 网 页 进行 更 加 精准 的 用 户 跳出 率 
的 计算 ， 以 便 网 站 的 设计 者 对 该 网 站 的 模块 或 网 页 进行 优化 处 理 。 

4. 统计 新 用 户 注册 比例 

网 站 的 新 用 户 注册 比例 ， 也 就 是 该 网 站 新 用 户 的 访问 数 与 每 天 注册 用 户 数 的 比率 。 

首先 计算 每 天 注册 的 用 户 数 : 


scala > val allUser = sqlContext. sql( "select count( distinct userID ) from userLogs where action + Reg- 
istef and riqi £2 2016 -04 -24 "). collect; 
allUser: Array[ org. apache. spark. sql. Row | = Array( [ 354560 ] ) 
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接着 ,计算 网 站 新 用 户 的 访问 数 ， 在 本 例 中 也 就 是 用 户 ID 为 0 的 用 户 数 : 


scala > val newUser = sqlContext. sql( "select count( * ) from userLogs where userID + 0 and riqi = 
"2016 -04 -24 "). collect; 
newUser: Array| org. apache. spark. sql. Row | = Array( [ 124577 ] ) 


最 后 ， 计 算 网 站 的 新 用 户 注册 比例 ; 
scala > newUser(0). get(0). toString. toDouble/allUser(0). get(0). toString. toDouble 


resl2: Double =0. 3513566110108303 


5 统计 热门 板块 排名 
本 节 案 例 使 用 Java 实现 了 热门 板块 的 排名 (例如; 网 站 板块 可 以 设计 为 “大 数据 ” 


“人 工 智能 "”“ 云 计算 ”等 ， 热 门板 块 的 排名 可 统计 哪些 网 站 板块 最 热门 ， 点 击 率 最 高 。) 同 
时 也 使 用 Java 实现 了 PV、UV、 页 面 跳出 率 、 新 用 户 注 册 比 例 统计 的 功能 。 


1) 初始 化 JavaSparkContext 及 HiveContext。 

2) pvStatistic 函数 : 计算 PV。 

e 进行 子 查询 subquery， 根 据 日 期 ,页面 ID 分 组 ， 从 数据 库 表 userlogs 中 查询 昨天 的 浏 
览 记 录 ， 包 括 日 期 、 页 面 ID 、pv 数 等 ; 

。 从 子 查 询 subquery 中 查询 ， 根 据 pv 数 降序 排序 ， 最 终 查 询 日 期 、 页 面 ID 、pv 数 等 内 容 。 

3) hotChannel 函数 : 计算 热门 板块 。 

e 进行 子 查询 subquery， 根 据 日 期 ,板块 分 组 ， 从 数据 库 表 userlogs 中 查询 昨天 的 浏览 
记录 ， 包 插 日 期 、 板 块 、 板 块 点 击 数 channelpv 等 内 容 ; 

e 从 子 查 询 subquery 中 查询 ， 根 据 板 块 点 击 数 channelpv 降序 排序 ， 最 终 查 询 日 期 、 板 
块 、 板 块 点 击 数 channelpv 等 内 容 。 

4) uvStatistic 函数 : 计算 UV 数 。 

e 进行 子 查询 subquery， 根 据 日 期 页面 ID， 用户 ID 分组， 从 数据 库 表 userlogs 中 查询 
昨天 的 浏览 用 户 ， 记 录 包 括 日 期 、 页 面 D、 用 户 ID 等 内 容 ; 

e 进行 子 查询 result， 根 据 日 期 ， 页面 ID 分 组 ， 从 子 查 询 subquery 中 查询 日 期 、 页 面 
ID、UV 数 等 ; 

e 从 子 查询 result 中 查询 ， 根 据 UV 数 降序 排序 ， 最 终 查 询 日 期 、 页 面 ID 、UV 数 等 内 容 。 

5) jumpOutStatistic 函数 : 计算 页 面 跳出 率 。 

。 统计 昨天 浏览 网 页 用 户 数 ; 

。 进行 子 查 询 ， 根 据 用 户 ID 分 组 ， 查 询 上 昨天 浏览 网 页 且 只 浏览 1 次 的 用 户 数 。 

。 然后 从 子 查询 中 统计 昨天 只 浏览 1 次 的 总 用 户 数 ; 

e 将 只 浏览 1 次 的 总 用 户 数 除 以 浏览 网 页 用 户 数 计算 出 用 户 跳 出 率 。 

6) newUserRegisterPercentStatistic 图 数 : 计算 新 用 户 注 册 的 比例 。 

e 统计 昨天 浏览 网 页 及 用 户 ID 为 空 的 用 户 数 ，; 

。 统计 昨天 注册 的 用 户 数 ; 

e 将 注册 用 户 数 除 以 浏览 用 户 数 计算 出 新 用 户 注册 比例 。 
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package sql; 


import java. text. SimpleriqiFormat; 

import java. util. Calendar; > 
import java. util. Date; 

import org. apache. spark. SparkConf; 

import org. apache. spark. api. java. JavaSparkContext; 


import org. apache. spark. sql. hive. HiveContext; 


/ 米 米 

* Table in hive database creation: 

* sqlContext. sql ( " create table userlogs (riqi string, timestamp bigint, userID bigint, pageID- 
bigint, channel string ,action string) ROW FORMAT DELIMITED FIELDS TERMINATED BY \t 
LINES TERMINATED BY " \nW ") 

* @ author root 


*/ 


class Spark SQLUserlogsOPS | 

public static void main( String[ ] args) | 

SparkConf conf = new SparkConf ( ) . setMaster ( " spark://123.233. 246. 100 : 7077" ) . setApp 

Name("Spark SQLUserlogsOps" ) ; 

JavaSparkContext sc = new JavaSparkContext( conf ) ; 

HiveContext hiveContext = new HiveContext( sc. sc( ) ) ; 
String yesterday ="2016 -05 -037" ; 

pvStatistic( hiveContext , yesterday ) ; //PV 

hotChannel( hiveContext ,yesterday) ; // 热 门板 块 

uvStatistic( hiveContext , yesterday ) ; //UV 

jumpOutStatistic( hiveContext ,yesterday) ; ”// 页 面 跳出 率 
newUserRegisterPercentStatistic( hiveContext , yesterday ) ; // 新 用 户 注册 的 比例 


| 
/计算 新 用 户 注册 比例 
private static void newUserRegisterPercentStatistic( HiveContexthiveContext ,String yesterday) | 
hiveContext sql("use website" ) ; 
String newUserSQL =" SELECT count(1) from userlogs where action 上 View AND riqi 
+ " +yesterday +" and userID is NULL" ; 
String yesterdayRegistered =" SELECT count(1) from userlogs where action £ Registet 
AND riqi £ " +yesterday +" "; 
Object totalPv = hiveContext. sql( yesterdayRegistered ). collect( )[01]. get(0); 
Object pv2One = hiveContext. sql( newUserSQL). collect( ) [01]. get(0); 
double total = Double. valueOf( totalPv. toString( ) ) ; 
double pv21 = Double. valueOf( pv2One. toString( ) ) ; 


System. out. println(" 模拟 新 用 户 注 册 比 例 :" + pv21 / total); 
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| 
/计算 页 面 跳出 率 
private static void jumpOutStatistic( HiveContexthiveContext ,String yesterday) | 
hiveContext sql("use website" ) ; 

String totalPvSQL = "SELECT count(1) from userlogs where action 上 View AND riqi 
"+yesterday+""; 

String pvV2OneSQL =" SELECT count(1) from (SELECT count(1) pvPerUser FROM 
userlogs where action 二 View AND riqi £ " +yesterday +" GROUP BY userID HAVING pvPerUs- 
er=1) result"; 

Object totalPv = hiveContext sql( totalPvSQL). collect( )[ 0]. get(0); 

Object pv2One = hiveContext. sql( pvV2O0neSQL). collect( ) [01]. get(0); 
double total = Double. valueOf( totalPv. toString( ) ) ; 
double pv21 = Double. valueOf( pv2One. toString( ) ) ; 

System. out. printIn(" 跳 出 率 为 ." + pv21 / total); 

| 
// 计 算 UV 数 。UV 是 指 某 个 页 面 被 多 少 用 户 访问 过 


private static void uvStatistic( HiveContexthiveContext ,String yesterday) | 


hiveContext sql("use website" ) ; 
String sqlText = "SELECT riqi,pageID ,uv" + 

" FROM (SELECT riqi,pageID ,count(1) uv "+ 
"FROM ( SELECT riqi,pageID ,userID FROM userlogs " 
+" WHERE action 2 View AND riqi £ " + yesterday +" CROUP BY riqi,pageID,userID ) sub- 
query GROUP BY riqi,pagelD) result " 
+" ORDER BY uv DESC "; 
hiveContext. sql( sqlText). show( ); 

| 
// 计 算 热门 板块 排名 


private static void hotChannel( HiveContexthiveContext, String yesterday) | 


hiveContext. sql( "use website" ) ; 
String sqlText = "SELECT riqi, channel, channelpv" + 

"FROM ( SELECT riqi,channel,count(1) channelpv FROM userlogs " 
+" WHERE action 2 View AND riqi £ " +yesterday +" GROUP BY riqi,channel) subquery" 
+" ORDER BY channelpv DESC "; 
hiveContext. sql( sqlText). show( ) ; 

| 
// 计 算 PV 页 面 浏览 量 或 点 击 量 
private static void pvStatistic( HiveContexthiveContext, String yesterday) | 


hiveContext. sql( "use website" ) ; 

String sqlText = " SELECT riqi, pagelD ,pv" + 
"FROM ( SELECT riqi,pageID ,count(1) pv FROM userlogs " 
+" WHERE action 2 View AND riqi £ " +yesterday +" CROUP BY riqi,pagelD) subquery" 
+" ORDER BY pv DESC "; 
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hiveContext sql(sqlText). show( ) ; 

// 把 执行 结果 放 在 数据 库 或 者 Hive 表 中 
| 

| 


通过 上 述 代码 ， 读 者 可 通过 执行 上 述 代码 ， 查 询 验证 各 项 排名 结 


ES 综合 案例 实战 一 电 商 网 站 搜索 排名 统计 


| 案例 概述 


本 节 介 绍 一 个 电 商 网 站 搜索 排名 统计 的 综合 案例 ， 以 京东 为 例 ， 用 户 登录 京东 网 站 ， 
在 搜索 栏 中 输入 搜索 词 ， 然 后 点 击 搜索 按钮 ， 就 能 在 京东 网 站 搜索 用 户 需 要 的 商品 。 在 
搜索 栏 中 输入 搜索 词 时 ， 当 用 户 输入 第 一 个 词 的 时 候 ， 京 东 就 能 根据 用 户 的 点 击 商品 搜 
索 排 名 ， 自 动 在 搜索 栏 下 拉 列 表 中 显示 搜索 热 词 ， 帮 助 用 户 快 捷 的 点 击 需 搜索 的 商品 。 
在 本 案例 中 ， 将 实现 和 京东 搜索 类 似 的 功能 ， 根 据 用 户 搜索 词 的 日 志 记 录 ， 将 用 户 每 天 
搜索 排名 前 3 名 的 商品 列 出 来 ， 系 统 后 人 台 可 以 将 搜索 排名 记录 持久 化 到 数据 库 中 ,提供 
给 Web 系统 或 其 他 应 用 使 用 。 这 里 将 搜索 排名 前 3 名 的 记录 保存 到 磁盘 文件 系统 中 ， 以 
JSON 格式 保存 。 

网 站 搜索 综合 案例 代码 分 2 个 模块 : 

(1) 数据 生成 模块 : 模拟 数据 的 生成 可 以 使 用 爬虫 代码 程序 ， 从 网 络 上 疏 取 相应 
的 用 户 搜索 数据 ， 进 行 ETL 数据 清理 。 为 简化 数据 爬 取 和 清洗 过 程 ， 我 们 采用 模拟 生 
成 数据 的 方式 ， 根 据 综合 案例 的 数据 需求 ， 人 工 生 成 模拟 数据 文件 ， 实 现 同样 类 似 的 
功能 。 

(2) 网 站 搜索 排名 : 找 出 用 户 每 天 搜索 排名 前 3 名 的 产品 。 


数据 准备 


在 本 案例 中 ， 根 据 项 目的 需求 ， 需 要 获取 用 户 搜索 的 日 期 、 用 户 名 称 、 用 户 搜索 的 
商品 、 用 户 所 在 的 城市 、 用 户 通过 什么 渠道 登录 网 站 (例如; 安 卓 手机 、 鞋 果 手 机 或 平 
板 电脑 ) 等 数据 信息 。 模 拟 数据 的 字段 包括 : 日 期 (date) ， 用户 (userID)， 商 品 
(ItemID) ,城市 ( CityID)， 终 端 (Device) ;模拟 数据 记录 数 可 以 任意 指定 (如 万 、 千 
万 、 亿 ) ,在 代码 中 赋值 给 numberltems 就 可 以 生成 numberltems 条 记录 ， 这 样 在 Spark 
SQL 中 测试 数据 就 非常 方便 ， 也 符合 实际 生产 应 用 场景 的 需求 ， 因 此 本 案例 具备 生产 系 
统 应 用 的 价值 。 

1. 数据 说 明 

通过 程序 Spark SQLUserlogsHottestDataManually 模拟 生成 数据 (程序 获取 地 址 : Http:// 
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blog. csdn. net/ dnan_2hihna/article/ details/78821810 ) 。 

日 志 的 字段 为 : 

日 期 ，date ， 格 式 为 yyyy -mm - dd， 是 指 日 志 记录 生成 的 日 期 

用 户 id，userID， 在 网 站 进行 搜索 的 用 户 ID 

商品 这 ，ItemID ， 用 户 在 网 站 搜索 的 商品 名 称 ID 

城市 id，CityID ， 用 户 在 哪个 城市 登录 网 站 

终端 ，Device ， 用 户 通过 什么 终端 渠道 登录 网 站 

生成 的 文件 路 径 为 G:\Spark SQLData\Spark SQLUserlogsHot. log， 各 字段 之 间 TAB 分 割 ， 
每 行 一 条 记录 。 

2. 数据 创建 

在 Spark SQLUserlogsHottestDataManually. java 应 用 程序 中 ， 通 过 numberltems 指定 10000， 
先生 成 10000 条 数据 ， 调 用 ganerateUserLogs 函数 ， 在 ganerateUserLogs 函数 分 别 调用 生成 当 
前 日 期 、 随 机 用 户 ID 、 随 机 商品 D、 随 机 城市 名 称 、 随 机 设备 类 型 的 各 个 函数 ， 然 后 将 生 
成 的 时 间 、 用 户 id、 商 品 、 地 点 、 设 备 信息 记录 拼接 成 字符 串 ， 将 字符 串 记录 保存 到 磁盘 文 
件 系统 。 

(1) ganerateUserLogs 因数 调用 


public static void main( String[ | args) | 
long numberItems = 10000 
ganerateUserLogs( numberltems," G: \\Spark SQLData\\" ); 
| 


Private static void ganerateUserLogs( long numberltems, String path ) 


StringBuffer userLogBuffer = new StringBuffer( ) 
String filename ="Spark SQLUserlogsHot log" ; 
// 元 数据 :Date .UserID \Item `City Device; 
for (inti=0;i<numberItems; i++) | 
String date = getCountDate( null,"yyyy-MM -dd" , -1) ;获取 日 其 
String userID = ganerateUserID( ) ;// 随 机 生成 用 户 ID 
String ItemID = ganerateltemID( ) ;// 随 机 生成 商品 ID 
String CityID = ganerateCityIDs( ) ;// 随 机 生成 城市 名 称 
String Device = ganerateDevice( ) ;// 随 机 生成 设备 类 型 
userLogBuffer. append( date + " \t" + userID +"\t" +ItemID +"\t" +CityID +"\t" + De- 


vice t+" \n" ) ; 


WriteLog( path ,filename , userLogBuffer +"" ) ;// 保 存 到 磁盘 文件 


| 


(2) 获取 当前 日 期 getCountDate 
模拟 生成 用 户 点 击 搜索 的 当前 日 期 。 


public static String getCountDate( String date, String patton ,int step) | 
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SimpleDateFormatsdf = new SimpleDateFormat( patton ) ;// 定 义 日 期 的 格式 
Calendar cal = Calendar. getInstance( ) ;// 获 取 Calendar 的 一 个 实例 
if (date! =null) | 
try | > 
cal. setTime( sdf. parse( date ) ) ; 
| catch (ParseException e) | 


e. printStackTrace( ) ; 


| 
cal. add( Calendar. DAY_OF_MONTH , step); 
return sdf. format( cal. getTime( ) ) ;// 返 回 当 前 日 期 


| 


(3) 随机 生成 用 户 UserID 
定义 一 个 用 户 ID 数组 ， 使 用 随机 数 从 数组 中 随机 获取 用 户 ID。 


private static String ganerateUserID( ) | 

Random random = new Random( ) ; // 定 义 一 个 随机 数 

String[ ] userID = | // 模拟 定义 用 户 DD 
"98415b9c -他 d4 ~45c3 - bc7f ~ dce3126c6c0b" ,"7371b4bd -8535 -461f ~ aSe2 - co4814b2151el" ， 
"49852bfa - a662 -4060 — bf68 -0dddde5feeal" ,"8768f089 —f736 -4346 - a83d — e23fe05b0ecd'" ， 
"a76ff021 -049c -4ala — 8372 -02f9c51261d5" ,"8d5dc011 - cbe2 -4332 -99cd -al848ddfd65d" ， 
"a2bccbdf -=f0e9 -489c -8513 -011644cb5cf7" ,"89c79413 - a7dl -462c -ab07 -01f0835696f7" ， 
"8d525daa -3697 —455e -8f02 - abO86cda7851" ,"c6f57c89 -9871 -4a92 -9cbe -a2d76cd79cd0" ， 
"19951134 -97el -4f62 -8d5c —134077d1{955" ,"3202a063 -4ebf -4f3f- a4b7 -Se542307d726" ， 
"40a0d872 -4Scc -46bc -b257 - 64ad898df281" ,"b891a528 -4bS5e -4ba7 -949c -2a32cb5a7Sec'" ， 
"0d46d52b -75a2 -4df2 -b363 -43874c9503a2" ," cle4b8cf -0116 -46bf -8dc9 -SSeb074ad315" ， 
"6fd24ac6 - 1bb0 -4ea6 — a084 -S2cc22e9be42" ,"5f8780af - 93e8 -4907 -9794 —f8c960e87d34" ， 
"692b1947 -8b2e -45e4 -8051 -0319b7f0e438" ," dde46f46 -ff48 -4763 -9c50 -377834ce7137" 上 ; 

return userID[ random. nextInt(20) ] ; 和 随机 获取 用 户 ID 


| 


(4) 随机 生成 商品 IemID 
定义 一 个 商品 有 D 数组 ， 使 用 随机 数 从 数组 中 随机 获取 商品 名 称 ID。 


private static StringganerateltemID( ) | 

Random random = new Random( ) ; 

String[ ] TtemIDs = | n 小 米 " a 休闲 鞋 " 让 洗衣 机 " a 显示 器 " | 显卡 " ey 洗衣 液 " 本 行 
车 记录 仪 " 上 }; 


return ItemIDs| random. nextInt(7) ] ; 


| 
(5) 随机 获取 城市 名 称 
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定义 一 个 城市 名 称 数组 ， 使 用 随机 数 从 数组 中 随机 获取 城市 名 称 


private static StringganerateCityIDs( ) | 

Random random = new Random( ) ; 

Sirina NC Names ee A 2 SA fC SO A 
新 科 " ," 巴 各 


WE 


return CityNames| random. nextInt( 10) ] ; 


| 


(6) 获取 设备 类 型 
定义 设备 类 型 数组 ， 使 用 随机 数 从 数组 中 随机 获取 设备 类 型 ， 如 安 卓 手机 、 苹 果 手 机 、 
平板 电脑 。 


private static String ganerateDevice( ) | 


Random random = new Random( ) ; 
String| ] Devices = | "android" ,"iphone" ,"ipad" |; 
return Devices[ random. nextInt(3) ] ; 


| 


(7) 写 入 磁盘 文件 
将 生成 的 用 户 搜 索 元 数据 记录 信息 : 日 期 (date) ， 用 户 (userID)， 商 品 (ltemID)， 
城市 (CityID)， 终端 (Device) 保存 到 磁盘 文件 中 。 


public static voidWriteLog( String path ,String filename ,String strUserLog) | 
FileWriter fw = null; 
PrintWriter out = null; 
try | 
File writeFile = new File( path + filename ) ; 
if (lwriteF'ile. exists( ) ) 
writeF'ile. createNewFkile( ) ; 
else | 
writeFile. delete( ) ; 
| 
fw =new FileWriter( writeFile ,true ) ; 
out = new PrintWriter( fw ) ; 
out. print( strUserLog ) ; 
|} catch (Exception e) | 
e. printStackTrace( ) ; 
try | 
if (out! = null) 


out. close( ) ; 
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if (fw! =null) 


fw. close( ) ; 
| catch (IOException ex) | 
ex. printStackTrace( ) ; > 
| 
| finally | 
try | 


if (out! = null) 
out. close( ) ; 
if (fw! = null) 
fw. close( ); 
| catch (IOException e) | 
e. printStackTrace( ) ; 


| 
3. 生成 模拟 数据 
运行 Spark SQLUserlogsHottestDataManually. java 代码 程序 ， 生 成 的 模拟 数据 结果 保存 到 
windows 系统 中 的 “G:\Spark SQLData\Spark SQLUserlogsHot log” 文 件 。 其 中 的 每 行 数据 分 
别 为 日 期 (date) ， 用 户 (userID) ， 商 品 (TtemID), 城市 (CityID)， 终端 (Device)， 从 日 
志文 件 中 选取 10 条 记录 ， 运 行 结果 如 下 。 


2016 -08 -15 89c79413 -a7dl -462c - ab07 -01f0835696f7 ”小 米 莫斯科 iphone 
2016 -08 -15 692b1947 -8b2e -45e4 -8051 -0319b7f0e438 ”显卡 深圳 iphone 

2016 -08 -15 c6f57c89 -9871 -4a92 -9cbe -a2d76cd79cd0 ”显示 器 上 海 ipad 
2016 -08 -15 49852bfa - a662 -4060 - bf68 -0dddde5feeal 小 米 巴黎 android 
2016 -08 -15 a76ff021 - 049c -4ala - 8372 -02f9c51261d5 小 米 首尔 android 
2016 -08 -15 0d46d52b -75a2 -4df2 -b363 -43874c9503a2 ”行车 记录 仪 深圳 iphone 
2016 -08 -15 6fd24ac6 - 1bb0 -4ea6 -a084 -52cc22e9be42 ”显示 器 巴黎 iphone 
2016 -08 -15 c6f57c89 -9871 -4a92 -9cbe -a2d76cd79cd0 小米 深圳 android 
2016 -08 -15 5f8780af -93e8 -4907 -9794-f8c960e87d34 洗衣 液 深圳 android 
2016 -08 -15 c6f57c89 -9871 -4a92 -9cbe -a2d76cd79cd0 ”小 米 莫斯科 android 


至 此 ， 本 案例 的 模拟 数据 已 生成 ， 接 下 来 我 们 实现 用 户 每 天 搜索 前 3 名 的 商品 排名 
统计 。 
实现 用 户 每 天 搜索 前 3 名 的 商品 排名 统计 


Spark SQL 网 站 搜索 综合 实战 案例 实现 用 户 每 天 搜索 前 3 名 的 商品 排名 统计 ， 具 体 实现 


步 又 如 下 : 
1) 从 Spark 读 和 人 用户 搜索 日 志 记 录 ， 根据 项 目 需 求 进行 ETL 数据 清洗 。 在 实际 生产 应 
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用 场景 中 ， 过 滤 条 件 可 能 非常 复杂 ， 对 过 滤 以 后 的 目标 数据 进行 特定 条 件 的 查询 ， 查 询 条 件 
可 能 也 非常 复杂 。 在 本 综合 实战 案例 中 ， 我 们 使 用 广播 变量 ， 将 广播 变量 分 发 到 各 个 Execu- 
tor 中 进行 查询 过 滤 ， 使 用 RDD 的 filter 操作 ， 过 滤 出 使 用 苹果 手机 搜索 网 站 商品 的 用 户 搜 
索 记 录 。 

2) 对 用 户 登 录 网 站 的 渠道 将 通过 苹果 手机 登录 的 记录 过 滤 以 后 ， 我 们 对 目标 数据 构建 
Key - Value 类 型 的 RDD (date#Item#userID，1L) ，Key 值 为 日 期 、 商 品 及 用 户 ID 使 用 # 连 接 
的 拼接 字符 串 ，Value 值 计数 为 1， 使 用 reduceByKey 操作 ， 统 计 Key 值 的 汇总 计数 ， 即 每 用 
户 在 每 天 点 击 搜索 每 商品 的 总 次 数 。 

3) 对 reduceByKey 以 后 的 数据 记录 拆 分 重新 组 拼 ， 拆 分 获取 字段 Date、UserID、Ttem， 
然后 组 拼 加 上 汇总 统计 的 搜索 次 数 count， 组 成 包含 Date 、UserID 、Item 、count 的 Json 字符 
串 ， 构造 DataFrame。 

4) 在 Spark SQL 注册 临时 表 ， 使 用 窗口 函数 row_number 统计 出 每 用 户 搜 索 每 商品 的 前 
3 名 。 

5) Spark SQL 网 站 搜索 结果 持久 化 : 可 以 通过 RDD 直接 操作 Mysql， 把 结果 直接 放 入 
生产 系统 数据 库 DB 中 ,通过 Java EE 、Web 页 面 进行 可 视 化 展示 ， 提 供 市 场 营销 人 员 、 仓 
储 调度 系统 、 快 递 系 统 、 管 理 决 策 人 员 使 用 。 也 可 以 放 在 Hive 中 ,通过 Java EE 使 用 JDBC 
连接 访问 Hive; 也 可 以 就 放 在 Spark SQL 中 ， 通 过 Thrift Server 提供 Java EE 使 用 ; 这 里 我 们 
以 JSON 格式 保存 到 磁盘 文件 系统 中 。 

本 案例 的 具体 实现 如 下 : 

1) 查询 每 天 每 用 户 点 击 某 商品 的 次 数 。 

e 初始 化 JavaSparkContext 及 HiveContext。 通 过 sc. textFile 加 载 用 户 搜 索 数 据 日 志文 件 。 

e 使 用 广播 变量 deviceBroadcast ， 将 要 过 滤 的 用 户 终端 类 型 ( 安 章 、 苹 果 、 平 板 ) 进行 

广播 ， 使 用 filter 方法 进行 过 滤 。 

。 查询 每 天 每 用 户 点 击 某 商品 的 次 数 。 对 每 行 的 数据 按 "\t" 进行 分 割 ， 将 日 期 、 商 品 、 

用 户 ID 组 成 Key 值 ， 每 次 计数 为 1 次 ,生成 key - Value 键 值 对 〈date#Item#userID ， 
1) 。 即 每 天 每 用 户 点 击 某 商品 的 次 数 计 数 为 1。 
代码 如 下 : 


SparkConf conf = new SparkConf( ). setMaster( "local" ). setAppName( "Spark SQLUserlogsHottest" ) ; 
JavaSparkContext sc = new JavaSparkContext( conf) 
SQLContextsqlContext = new HiveContext( sc); 
JavaRDD < String > lines = sc. textFile("G:\\Spark SQLData\\Spark SQLUserlogsHot log" ) ; 
String device =" iphone" ; 
final Broadcast < String > deviceBroadcast = sc. broadcast( device) ;// 定 义 广播 变量 
// 使 用 filter 方法 进行 过 滤 
JavaRDD < String > lineFilter = lines. filter( new Function < String, Boolean > ( ) | 
@ Override 
public Boolean call( String s) throws Exception | 
return s. contains( deviceBroadcast. value( ) ) ;// 过 滤 出 登录 渠道 包含 苹果 手机 的 记录 
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1 

JavaPairRDD < String, Integer > pairs = lineF'ilter. mapToPair( new PairFunction < String, String, Integer > 

人 下 
private static final long serialVersionUID = 1L; > 
@ Override 


public Tuple2 < String, Integer > call( String line) throws Exception | 
String[ ] splitedLine = line. split(" \t" ) ;// 按 " \t" 进行 分 害 
int one =1;// 计 数值 为 1 
String dataanditemanduserid = splitedLine[ 0 ] + "#" + splitedLine[2] +"#" 
+ String. valueOf( splitedLine[ 1 ] ) ;// 组 拼 成 (date#Item#userID ) 字符 串 
return new Tuple2 < String, Integer > ( String. valueOf ( dataanditemanduserid ) , Inte- 


A 


ger. valueOf( one) ) ; 


1); 


2) 统计 每 用 户 在 每 天 点 击 搜索 每 商品 的 总 次 数 。 

e 使 用 reduceByKey 方法 将 用 户 每 天 点 击 商品 的 次 数 汇 总 累加 。 统 计 出 每 天 用 户 搜 索 每 
商品 的 搜索 次 数 累 计 值 。 

。 将 统计 结果 拼接 成 JSON 格式 。 

代码 如 下 : 


JavaPairRDD < String, Integer > pairsCount = pairs. reduceByKey ( new Function2 < Integer, Integer, Inte- 
ger>() | 
@ Override 
public Integer call( Integer vl ,Integer v2) throws Exception | 
return vl + 岂 ;// 相 同 key 值 的 记录 ,value 进行 累加 


1); 


List <Tuple2 < String, Integer > > pairsCountRows = pairsCount. collect( ) ; 
// 动态 组 拼接 为 JSON 格式 
List < String > userLogsInformations = new ArrayList < String > ( ); 
for (Tuple2 < String, Integer > row :pairsCountRows) | 
/7/ 按 “#” 进行 分 割 , 拆 分 三 个 字段 
String[ ] rowSplitedLine = row. _1. split("#" ); 


String rowuserID = rowSplitedLine[ 2] ; 

String rowitemID = rowSplitedLine[ 1 ] ; 

String rowdateID = rowSplitedLine[0 ] ; 

// 拼接 Json 元 数据 .Date .UserID Item .Count 

String jsonZip =" | \"Date\":\"" +rowdateID +"\",\"UserID\":.\"" +rowuserID +" 


,WTtem\":\" +rowitemID + "\",\" count\" :" +row. 2 +" 1"; 
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userLogsInformations. add( jsonZip ) ; 


| 
3) 在 Spark SQL 中 注册 临时 表 ， 使 用 窗口 函数 row_number 统计 出 用 户 搜索 每 商品 的 前 
3 名 。 
e 调用 sc. parallelize 方法 创建 userLogsInformationsRDD ， 使 用 sqlContext. read( ). json 加 
载 Json 数据 ， 构 建 DataFrame userLogsInformationsDF。 
e 将 DataFrame 注册 成 为 临时 表 userlogsInformations 。 
e 使 用 SQL 窗口 函数 : 以 子 查 询 的 方式 完成 目标 数据 的 提取 ,在 目标 数据 内 使 用 窗口 函 
数 row_number 进行 分 组 排序 。 
(1) 先进 行 子 查询 sub_userlogsInformations， 根 据 用 户 ID 分 组 ， 按 照 搜索 次 数 降序 排 
序 ， 查询 出 用 户 ID， 商 品 卫 ， 搜 索 次 数 ， 排 名 ; 
(2) 然后 从 子 查 询 sub_userlogsInformations 查询 ， 查 询 排名 前 3 名 的 用 户 ID ， 商 品 ID， 
搜索 次 数 。 
代码 如 下 : 


// 通 过 内 容 为 JSON 的 RDD 来 构造 DataFrame 

JavaRDD < String > userLogsInformationsRDD = sc. parallelize( userLogsInformations ) ; 

DataFrame userLogsInformationsDF = sqlContext. read( ). json( userLogsInformationsRDD ) ; 

userLogsInformationsDF. show( ) ; 

// 注册 成 为 临时 表 

userLogsInformationsDF. registerTempTable(" userlogsInformations" ) ; 

/* 使 用 子 查 询 的 方式 完成 目标 数据 的 提取 ,在 目标 数据 内 使 用 窗口 函数 row_number 来 进 
行 分 组 排序 : PARTITION BY :指定 窗口 函数 分 组 的 Key; ORDER BY 分 组 以 后 进行 排序 ; 

*/ 

String sqlText =" SELECT UserID ,Item,count " +" FROM (" +"SELECT " + "UserlD, Ttem, 

count," +"row_number( ) OVER (PARTITION BY UserID ORDER BY count DESC) rank" +" 


FROM userlogsInformations " 
+") sub_userlogsInformations " + " WHERE rank < =3 "; 

System. out. println( sqlText ) ; 

DataFrameuserLogsHotResultDF = sqlContext. sql( sqlText ) ; 

userLogsHotResultDF. show( ) ;// 打 印 输出 userLogsHotResultDF 

userLogsHotResultDF. write( ). format( " json" ). save( " G://Spark SQLData//Result. json" ); 
// 保 存 到 磁盘 文件 

while (true) | 


| 


sqlContext. sql( sqlText) 使 用 开 窗 函数 查询 每 用 户 搜索 每 商品 的 前 3 名 的 数据 记录 ， 打 印 
输出 userLogsHotResultDF。userLogsHotResultDF. show () 运行 结果 如 下 。 
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UserID1 Itemlcount 1 


a76ff021 -049c -4al...| 
a76ff021 -049c -4al...| 
692b1947 -8b2e -45e.. 
692b1947 -8b2e -45e.. 
692b1947 -8b2e -45e.. 


8768{089 —f736 -434.. 
8768{089 —f736 —434.. 


a76ff021 -049c -4al...| 行 车 记录 仪 | ”251 


显卡 | 251 
洗衣 液 | ”23|1 
.| 显示 器 1 31| 
.| ”洗衣 机 | ”30| 
-| 小米 | ”29| 
显示 器 | ”29| 
洗衣 液 1 ”261 


8768f089 -1736 -434...1 行 车 记录 仪 | 33| 
| 
中 


4) 将 结果 以 JSON 格式 保存 到 磁盘 文件 。 


将 每 用 户 搜索 每 商品 的 前 3 名 的 数据 保存 到 本 地 磁盘 文件 G:/Spark SQLDatav 
Result. json ， 查 看 window 系统 中 的 G:/Spark SQLData/Result. json 目录 ， 上 有 目录 里 面 已 经 
生成 一 批 小 文件 。 文件 格 式 包 括 _SUCCESS,. _SUCCESS. crec，. part -T - 00000 - 
c4e7c8c9 - d08a -443d -9238 -elal3balceel. crc (类 似 多 个 文件 )，part -rr -00018 - 
70d42435 -fd8c -409c -882f -3c4f0727d392 (类 似 多 个 文件 ) 。 查 看 其 中 一 个 用 户 搜 
索 商 品 的 前 3 名 的 数据 结果 文件 ， 如 part -r -00186 -c4e7c8c9 - d08a -443d - 9238 - 


elal3balceel 的 文件 内 容 ， 


时 


显示 用 户 7371b4bd -8535 -461f -a5e2 -c4814b2151el 的 


搜索 前 三 名 的 商品 为 “显卡 ”， 计 数 35 次 ;“ 洗 衣 机 ”,， 计数 32 次 ;“ 休 闲 鞋 ”计数 29 


次 ,查询 结果 如 下 。 


"UserID'" :"7371b4bd -8535 -461f - age2 - ec4814b2151el" ," Item'" :" 显卡" ,"count" :35| 


"UserID" :"7371b4bd -8535 -461f - a5e2 - ec4814b2151el" , "Item" :" 洗衣 机 "," count" :321 


"UserID" :"7371b4bd -8535 -461f - age2 - c4814b2151el" ,"Item" :" 休 闲 鞋 " ," count" :29| 


"UserID'" :"a2bccbdf - {0e9 -489c -8513 -011644cb5cf7" , "Item" :" 显卡 " ," count" :28 | 


" UserID" :"a2bccbdf - {0e9 -489c -8513 -011644cb5cf7" ," Item" :" 洗 衣 液 " ," count" :25 | 
" UserID" :"a2bccbdf -f0e9 -489c -8513 -011644cb5cf7" , "Item" :" 显示 器 " ," count" :22| 


5) 在 Spark Web UI 页 面 中 查看 程序 运行 情况 。 

SparkSQLUserlogsHot. Java 使 用 Spark 以 本 地 Local 模式 运行 ， 在 Spark SQLUserlog- 
sHot 类 的 末尾 加 上 while(true) | } 循环 语句 ， 这 样 Spark SQLUserlogsHot. Java 程序 一 直 运 
行 ， 就 可 以 登录 Spark web 页 面 http ://127. 0. 0. 1 :4040 查看 Spark SQLUserlogsHot 应 用 


运行 情况 。 


登录 Spark Web UI 页 面 http: //127. 0. 0.1: 4040/jobs/ ， 查 询 页 面 显 示 如 图 8-3 所 示 。 

登录 Spark Web UI 页 面 http://127.0.0.1:4040/SQL/， 查 询 SQL 页 面 。 点 击 Detail 列表 
“ == Parsed Logical Plan == ”项 中 右 侧 的 [ + details ] 键 ， 可 查看 Parsed Logical Plan 的 详细 内 
容 ， 里 面包 括 Spark SQL 的 Parsed Logical Plan 、Analyzed Logical Plan 、Optimized Logical 
Plan 、Physical Plan 的 执行 情况 。 如 图 8-4 所 示 。 


9ark SQL 大 娄 所 实例 开发 教程 


€ 3 © |B 127.0.0.1:4040/jobs/ 


Qm)s 


Spa 和 ss dows steges 


Spark Jobs (?) 


Total Uptime: 1.7 h 
Scheduling Mode: FIFO 
Completed Jobs: 8 


，Event Timeline 


Storage Environment 


Executors SQL SparkSQLUserlogsHottest application UI 


Completed Jobs (8) 

Jobld Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 
用 save at SparkSQLUserlogsHotjava:135 2016/08/1708:38:53 ”6s 2/2 EL201 
6 show at SparkSQLUserlogsHotjava:134 2016/08/1708:38:51 ”2s 1/1 (1 skipped) 199/199(1skipped) 
5 show at SparkSQLUserlogsHotjava:134 2016/08/1708:38:50 1s 2/2 iu 
4 show at SparkSQLUserlogsHotjava:117 2016/08/1708:38:48 0.3s M1 mn 
3 json at SparkSQLUserlogsHotjava:115 2016/08/17 08:38:48 0.1s 1 Nt 
2 collect at SparkSQLUserlogsHotjava:88 2016/08/1708:38:48 0.2s 2/2 a /a 
collect at SparkSQLUserlogsHotjava:72 2016/08/1708:38:47 47ms 1/1 aid 
0 collect at SparkSQLUserlogsHotjava:51 。 2016/08/17 08:38:47 0.2s 11 \imt 

图 8-3 Spark Web UI 页 面 
€ 2 C D127.0.0.1:4040/SQL/ QT 
Spaik: 全 Jobs Stages Storage Environment Executors | SQL SparkSQLUserlogsHottest application UI 
SQL 
Completed Queries 
ID _ Description | Submitted Duration Jobs Detail 
2 save at SparkSQLUserlogsHotjava:135 +details | 2016/08/17 8 S . == Parsed Logical Plan == +details 
08:38:53 
1 | show at Spark SQLUserlogsHot.java:134 +details | 2016/08/17 3s 5 == Parsed Logical Plan == +details 
| 08:38:50 6 
0 show at SparkSQLUserlogsHotjava:117 +details 2016/08/17 03s 4 | == Parsed Logical Plan == +details 
08:38:48 a 


org.apache. spark.sql.DataFrame.show(DataFrame.scala:3 


63) 


com.dt.imf.zuoye801.SparkSQLUserlogsHot .main(SparkSQL 


UserlogsHot.java:117) 


本 章 小 结 


+- Relation[Date#0,Item#1,UserID#2,count#3L] JSONRelation 


== Analyzed Logical Plan == 

Date: string, Item: string, UserID: string, count: bigint 
Limit 21 

+- Relation[Date#0,Item#1,UserID#2,count#3L] JSONRelation 


== Optimized Logical Plan == 
Limit 21 
+- Relation[Date#0,Item#1,UserID#2,count#3L] JSONRelation 


== Physical Plan == 


图 8-4 Spark SQL 页 面 


本 章 完整 的 讲述 了 两 个 


综合 企业 级 应 用 案例 : 电子 商务 网 站 日 志 多 维度 数据 分 析 ， 电 商 


网 站 搜索 综合 排名 ， 归 纳 并 应 用 了 全 部 Spark SQL 知识 点 ， 是 学 习 Spark SQL 应 用 的 经 典 案 
例 ， 可 以 使 读者 对 Spark SQL 有 深入 的 理解 。 
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